自然语言处理学习笔记十一(文本分类)

       在文本聚类中,体验了无须标注语料库的便利性,但是无监督学习总归无法按照我们的意志预测出文档的类别,限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中,于是有了文本分类的产生。

一、文本分类的概念

        文本分类,又称为文档分类,指的是将一个文档归类到一个或者多个类别中的自然语言处理任务。文本的类别称为标签,如果一个文档属于多个类别,此时此类问题称为多标签分类

      文本分类是一个典型的监督学习任务,其流程离不开人工指导:人工标注文档的类别,利用语料训练模型,利用模型预测文档的类别。

二、文本分类语料库

        文本分类语料库的标注过程相对简单,只需收集一些文档,人工指定每篇文档的类别即可。另外,许多新闻网站的栏目是由编辑人工整理的,如果栏目设置符合要求,也可以用爬虫爬取下来作为语料库使用。

三、文本分类的特征提取

       在机器学习中,我们需要对具体对象提取出有助于分类的特征,然后交给某个分类器进行分类。这些特征数值化后为一个定长的向量,用来作为分类器的输入。在训练时,分类器根据数据集中的数据点学习决策边界。在预测师,分类器根据输入的数据点落在决策边界的位置来决定类别。

      3.1  分词

      文本分类并不一定需要进行分词,将文本中相邻的两个字符构成的所有二元语法作为“词”,反而能取得更好的分类准确率。

    3.2 卡方特征选择

     对于文本分类而言,其特征提取过程与文本聚类相同,特征提取的结果都为词袋模型下的稀疏向量(词袋向量)。唯一不同的是,许多常用单词对分类决策的帮助不大,比如 ‘的’、标点符号等,也有可能一些单词在所有类别的文档中均匀出现。为了消除这些单词的影响,一方面可以用停用词表,一方面可以用卡方非参数检验来过滤掉与类别相关程度不高的词语。计算出每个特征的卡方值后,确定哪些特征有用,然后就可以将文档转化为向量了   

3.3  词袋向量

       用特征的id作为下标,频次作为数值,假设一共有n个特征,一篇文档就可以转化为n维的词袋向量。

       在不尽兴特征选择的前提下,如果以词语作为特征,则n大约在10万量级;如果以字符二元语法作为特征,则n大约在50万量级。数十万维的向量运算开销不容小觑,一般利用卡方特征选择,可以将特征数量减小到10%-20%左右。

四、朴素贝叶斯分类器

      在各式各样的分类器中,朴素贝叶斯法算是最简单常用的一种生成式模式。朴素贝叶斯法基于贝叶斯定理将联合概率转化为条件概率,然后利用特征条件独立假设简单条件概率的计算。

     朴素贝叶斯法实现简单,但由于特征独立性假设过于强烈,有时会影响准确性,为此我们可以使用更加健壮的支持向量机分类器

五、支持向量机分类器

        支持向量机是一种二分类模型,其学习策略在于如何找出一个决策边界,使得边界到正负样本的最小距离都最远。这种策略使得支持向量机有别于感知机,能够找到一个更加稳健的决策边界。支持向量机最简单的形式为线性支持向量机,其决策边界为一个超平面,适用于线性可分数据集。

六、标准化评测

       评测指标P、R、F1,中文文本分类的确不需要分词,不分词直接用二元语法反而能够取得更高的准确率,只不过由于二元语法数量比单词多,导致参与运算的特征更多,相应的分类速度减半。

      线性支持向量机的分类准确率更高,而且分类速度更快,推荐使用。

      

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值