详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

最新推荐文章于 2021-05-16 00:00:13 发布

weixin_30852419

最新推荐文章于 2021-05-16 00:00:13 发布

阅读量885

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/yanmk/p/8425744.html

版权

1.前言

　　对大量需要分类的文本数据进行标记是一项繁琐、耗时的任务，而真实世界中，如互联网上存在大量的未标注的数据，获取这些是容易和廉价的。在下面的内容中，我们介绍使用半监督学习和EM算法，充分结合大量未标记的样本，以期获得文本分类更高的准确率。本文使用的是多项式朴素贝叶斯作为分类器，通过EM算法进行训练，使用有标记数据以及未标记的数据。研究了多类分类准确率与训练集中未标记数据的比例之间的关系。并探索方法来降低EM过程的计算代价来加速训练。结果显示，半监督EM-NB分类器可以在只给2%标记数据情况下达到大于50%的准确率，在给定33%标记数据情况下达到大于70%的准确率。本文来源于参考中的附录1，详细代码和介绍可以参见链接。

2.数据集介绍

3.模型介绍

4.关键代码实现

5.实验结果

6.总结

7.参考

附录1：Text Classification Using EM and Semi-Supervised Learning

转载于:https://www.cnblogs.com/yanmk/p/8425744.html

weixin_30852419

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。