大数据文本分类、聚类思想

最新推荐文章于 2020-11-20 18:11:57 发布

爱萨萨

最新推荐文章于 2020-11-20 18:11:57 发布

阅读量1.2k

点赞数

分类专栏：技术-大数据文章标签：文本分类聚类

技术-大数据专栏收录该内容

205 篇文章 19 订阅

订阅专栏

大数据文本分类、聚类

对大数据文本进行分类聚类

1.获取数据

-用爬虫爬取微薄数据。

2.分词

-使用jieba进行中文分词。

3.使用IF_IDF把文本向量化

-分词后，使用IF_IDF把文本向量化，每个文本对应一个向量
python有可以直接使用scikit-learn工具计算文本TF-IDF的值

4.使用KMeans算法聚类

-根据上一步得到的各文本的TF-IDF值，使用KMeans算法自动聚类。
各文本所对应的向量是高维的，离散的，KMeans算法会自动生成聚类中心点，然后计算加入的文本距离哪个中心点距离最近，就加入这个类，然后重新更新这个类的中心点，新的中心点为这个类中所有文本类的均值中心点。通过一次次迭代，完成所有文本的聚类。

5.使用朴素Bayes算法分类

-朴素Bayes算法是给定一个测试样例d（成员a1,a2,a3….an）后，估计它的后验概率，P（C=cj|d）。计算哪个类cj（领域A1,A2,A3…..An）对应的概率大，将那个类别便赋予样例d。
P（C=cj）是类别cj的先验概率，可以简单用在训练集D中属于类别cj的比例估计这个先验概率。计算d中各个成员在类cj中的概率*选中cj的概率/d中各个成员在总训练集中的概率。因为分母是一样的，所以只需要计算分子。
注意点，A1,A2,A3……An是条件独立的，互不干扰。
构造贝叶斯分类器所需要的概率值（P（C=cj）P（Ai=ai|C=cj））可以经过一次扫描数据得到，所以算法相对于样本数量是线性的，效率很高。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。