文本分类
锦堇年
NLP学弱
展开
-
文本分类学习笔记(1)- 概论
一、文本分类一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。[1]中给出了多种文本分类的概念,参考其他资料发现主要有几点需要注意:第一,分类所需要的类别体系即类别及其标号是预先确定的;第二,一篇文档并没有严格规定只能被分配给一个类别,而是与分类这个问题的主观性有关,可以采用置信度来评估[2];第三,文本分类不等价与“判断一原创 2015-12-11 17:01:20 · 1093 阅读 · 0 评论 -
文本分类学习笔记(2)- 特征提取
文本分类学习笔记(2) 师兄提供了一组英文文本分类任务,正好拿来练手。 第一个问题就是文本的导入问题。数据格式为:每个类别一个文件夹,存放无后缀的文本文件,单词以空格切分。 自然的想法就是扫描文件夹下的所有文本,并将所有单词读入字典。 依据 http://www.jb51.net/article/52218.htm 中提供的方法,稍作修改得到如下方法:#!/usr/bin/python#原创 2015-12-11 17:07:37 · 1688 阅读 · 0 评论 -
文本分类学习笔记(4)- LR模型
LR分类器实现,多分类的softmax模型:#coding=utf-8from scipy import sparse,iofrom sklearn.linear_model import LogisticRegressionfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricsfrom numpy原创 2016-02-29 20:42:26 · 1491 阅读 · 1 评论 -
文本分类学习笔记(5)- KNN
KNN分类器实现,运行极慢不推荐;#coding=utf-8from numpy import *from scipy import sparse,iofrom sklearn.datasets import load_filesfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extract原创 2016-02-29 20:48:08 · 595 阅读 · 0 评论 -
文本分类学习笔记(6)- 贝叶斯
贝叶斯分类器: 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|) V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少“个”单词。P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例原创 2016-02-29 20:57:08 · 600 阅读 · 0 评论 -
文本分类学习笔记(3)- 特征提取
#coding=utf-8import osimport nltkfrom nltk.corpus import wordnet as wnfrom numpy import *from math import expfrom scipy import sparse,iofrom sklearn.linear_model import LogisticRegressionimport原创 2015-12-16 19:42:53 · 2933 阅读 · 0 评论