读取一些技术牛人的博客,得到一些灵感,想写一个笔记,就当这些天的一个总结吧。
1、基础知识
1.1样本整理
文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和1,而在朴素贝叶斯方法中,一般为0和1,但不是固定的,标签的设置和算法本身的性质有关的。
1.2特征选择
文本分类中最著名的特征提取方法就是向量空间模型(VSM),即将样本转换为向量的形式。为了能实现这种转换,需要做两个工作:确定特征集和提取特征。
1.2.1确定特征集
特征集其实就是词典,而且还需要给每个词设定一个编号。一般可以将所有样本的词都提取出来作为词典,而词典的编号可以随意设置,默认情况下,所有词的权重都是等同的。如何从样本中提取出一个个意义的词呢?最常用的方法就是使用分词工具。现在比较常见的分词工具有ICTCLAS(C++),Ik_Analyse2012(Java)。图1.1-1是为了方便
而在一篇博客上截得的图,简单容易理解。