- 分类
- 原因:为了获得固定查询所属问题的通性和空间范围。
- 定义:分类是指将给定对象归入一个或者多个给定类别的过程。
- 分类的应用:
- 文档编码的识别分词、真实大小写处理及文档语言类型的判定
- 垃圾网页的自动判定
- 色情淫秽内容的自动判定
- 情感发现
- 个人的邮件组织和整理
- 面向主题的搜索或者垂直搜索
- 文本分类方法
- 人工分类
- 人工编写规则(人力成本高、需要很高的专业技巧)
- 基于机器学习的方法
- 文本分类
- 定义:给定分类体系,将一篇文本分到其中一个或者多个类别中的过程。
- 文本分类的类别:
- 按每篇文档赋予的标签数目
- 单标签
- 多标签
- 按类别数目
- 二类问题
- 多类问题
- 按每篇文档赋予的标签数目
- 目标:在测试数据或者新数据上获得高精确率的结果。
- 朴素贝叶斯文本分类
- 多项式朴素贝叶斯(多项式NB模型)—一种基于概率的学习方法
- 文档d属于类别c的概率的计算方法:
- 最可能的类是具有MPA估计值得结果(对于NB分类来说)
- 大多数NB在实现时所求的最大值实际是:
- 文档d属于类别c的概率的计算方法:
- 多项式朴素贝叶斯(多项式NB模型)—一种基于概率的学习方法
文本分类(text classification)
最新推荐文章于 2024-05-15 18:38:16 发布
![](https://img-home.csdnimg.cn/images/20240709112858.png)