【自然语言处理】补充:文本分类及朴素贝叶斯分类器
1. 文本分类
-
文本分类/Text Classification/Text Categorization
- 给定分类体系,将一篇文本分到其中一个或者多个类别中的过程
- 按类别数目:binary、mukti-class
- 按每篇文档赋予的标签数目:sing label、multi label
- 文本分类任务:垃圾邮件过滤
-
文本分类的形式化定义
- 训练:给定
- 文档空间X:文档都在该空间下表示,通常是某种高维空间
- 固定的类别集合
C={c1, c2, ..., cj}
:类别往往根据应用的需求来认为定义(如,相关类和不相关类) - 训练集D,文档d用c来标记
利用学习算法,可以学习一个分类器,它可以将文档映射成类别
- 应用/测试
- 例:主题分类
- 训练:给定
-
搜索引擎中的文本分类应用
- 语言识别
- 垃圾网页的识别
- 是否包含淫秽内容
- 领域搜索或垂直搜索
- 静态查询
- 情感识别,如影评或产品评论是贬还是褒
-
分类方法
- 手工方法
- 如果是专家来分类精度会非常高
- 如果问题规模和分类团队规模都很大的时候,能否保持分类结果的一致性
- 但是对人工分类进行规模扩展将非常困难,代价昂贵
- 规则方法
- 通常情况下都是布尔表达式组合
- 如果规则经过专家长时间的精心调优,精度会非常高
- 建立和维护基于规则的分类系统非常繁琐,开销也大
- 统计/概率方法
- 文本分类被定义为一个学习问题,包括:通过有监督的学习,得到分类函数,然后将其应用于对新文本的分类
- 需要手工构建训练集
- 该手工工作一般人就可以完成,不需要专家
- 手工方法
2. 朴素贝叶斯
-
朴素贝叶斯分类器
- 朴素贝叶斯是一个概率分类器
- 文档d属于类别c的概率计算如下:
- 如果文档的词项无法提供属于哪个类别的信息,那么我们直接选择P©最高的那个类别
-
朴素贝叶斯规则
- 给定文档的条件下,我们希望得到最可能的类别