【自然语言处理】补充：基于向量空间的分类器

最新推荐文章于 2024-10-10 21:45:27 发布

Ausgelebt

最新推荐文章于 2024-10-10 21:45:27 发布

阅读量609

点赞数 17

分类专栏：智能科学与技术文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ausgelebt/article/details/142613309

版权

【自然语言处理】补充：基于向量空间的分类器

文章目录

【自然语言处理】补充：基于向量空间的分类器

1. 特征选择

特征选择
- 文本分类中，通常要将文本表示在一个高维空间下，每一维对应一个词项
- 许多维上对应是罕见词
- 罕见词可能会误导分类器
- 这些会误导分类器的罕见词被称为噪音特征
  - 比如我们将对文本是否属于China类进行判断，假定某个罕见词项，比如Arachnocentric（心律不齐），没有任何关于China类的信息，但是在训练集中，该词的所有出现正好都在China这个类别中，这种情况下，我们就可能训练得到一个分类器，它认为Arachnocentric标志着类别China的出现
  - 这种从训练集中的偶然现象学习得到的一般化结果称为过学习/过拟合Overfitting，特征选择能减少过学习可能，并提高分类器的精度
- 去掉这些噪音特征会同时提高文本分类的效率和效果
- 上述过程称为特征选择
基本的特征选择算法
不同的特征选择方法（主要基于其所使用特征效用指标来定义）
- 频率法（选择高频词项）
  - 基于文档频率（DF）的选择方法：类别c中包含某个词项t的文档数目；Term的DF小于某个阈值去掉（太少，没有代表性）
  - 基于文档集频率（类别c中词项t出现的总次数）
  - 文档频率更适合于贝努利模型
  - 文档集频率更适合于多项式模型
- 互信息/信息增益（选择具有最高互信息的那些词项）
  - 互信息MI给出的是词项所包含的有关类别的信息及类别包含的有关词项的信息量
  - 比如，如果词项的出现与否与类别独立（不同类别中包含和不包含词项的文档比例完全一样）
  - 定义：

最低0.47元/天解锁文章

关注

17
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Ausgelebt CSDN认证博客专家 CSDN认证企业博客

码龄2年

40: 原创

9万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1207: 积分

585: 粉丝

797: 获赞

10: 评论

817: 收藏

私信

关注

热门文章

分类专栏

最新评论

算法分析与设计_3_分治
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
matlab使用1-基础
CSDN-Ada助手: 恭喜用户发布第17篇博客！学习matlab的基础知识是非常重要的，希望你能继续坚持创作，分享更多关于matlab的知识。下一步可以考虑深入一些高级的应用或者案例分析，让读者更深入地了解如何在实际项目中运用matlab。期待你的下一篇文章！祝你创作顺利！
matlab使用1-基础
CSDN-Ada助手: 恭喜您发布了第17篇博客“matlab使用1-基础”！持续创作是非常不易的，您的努力和热情让我们感到钦佩。希望您能继续分享关于matlab的知识和经验，或许可以考虑扩展到一些实用技巧或案例分析，让读者受益更多。期待您的下一篇作品！继续加油！🌟🌟🌟
matlab使用2-基础绘图
CSDN-Ada助手: 恭喜您在博客中分享了关于matlab基础绘图的知识，这对初学者来说非常有帮助！希望您能继续坚持创作，为更多人解决学习问题。下一步，或许可以考虑分享一些高级绘图技巧或者实际应用案例，让读者更深入地了解matlab的使用。谢谢您的分享，期待您更多的精彩内容！
matlab使用2-基础绘图
CSDN-Ada助手: 恭喜您发布了新的博客！学习matlab基础绘图是一个很好的开始，希望您能继续坚持创作。下一步，或许可以考虑分享更多高级的绘图技巧或者结合实际案例进行展示，让读者更加深入地了解matlab的应用。期待您的下一篇作品！祝您创作顺利！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。