【自然语言处理】补充：文本分类及朴素贝叶斯分类器

最新推荐文章于 2024-09-30 19:35:25 发布

Ausgelebt

最新推荐文章于 2024-09-30 19:35:25 发布

阅读量946

点赞数 9

分类专栏：智能科学与技术文章标签：自然语言处理分类人工智能

本文链接：https://blog.csdn.net/Ausgelebt/article/details/142420266

版权

【自然语言处理】补充：文本分类及朴素贝叶斯分类器

文章目录

【自然语言处理】补充：文本分类及朴素贝叶斯分类器

1. 文本分类

文本分类/Text Classification/Text Categorization
- 给定分类体系，将一篇文本分到其中一个或者多个类别中的过程
- 按类别数目：binary、mukti-class
- 按每篇文档赋予的标签数目：sing label、multi label
- 文本分类任务：垃圾邮件过滤
文本分类的形式化定义
- 训练：给定
  - 文档空间X：文档都在该空间下表示，通常是某种高维空间
  - 固定的类别集合C={c1, c2, ..., cj}：类别往往根据应用的需求来认为定义（如，相关类和不相关类）
  - 训练集D，文档d用c来标记
    利用学习算法，可以学习一个分类器，它可以将文档映射成类别
- 应用/测试
- 例：主题分类
搜索引擎中的文本分类应用
- 语言识别
- 垃圾网页的识别
- 是否包含淫秽内容
- 领域搜索或垂直搜索
- 静态查询
- 情感识别，如影评或产品评论是贬还是褒
分类方法
- 手工方法
  - 如果是专家来分类精度会非常高
  - 如果问题规模和分类团队规模都很大的时候，能否保持分类结果的一致性
  - 但是对人工分类进行规模扩展将非常困难，代价昂贵
- 规则方法
  - 通常情况下都是布尔表达式组合
  - 如果规则经过专家长时间的精心调优，精度会非常高
  - 建立和维护基于规则的分类系统非常繁琐，开销也大
- 统计/概率方法
  - 文本分类被定义为一个学习问题，包括：通过有监督的学习，得到分类函数，然后将其应用于对新文本的分类
  - 需要手工构建训练集
  - 该手工工作一般人就可以完成，不需要专家