新手探索NLP（十二）——文本聚类

最新推荐文章于 2024-04-22 07:00:00 发布

野营者007

最新推荐文章于 2024-04-22 07:00:00 发布

阅读量3k

点赞数 3

分类专栏： Neural Network 文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40136685/article/details/90635672

版权

简介

聚类又称群分析，是数据挖掘的一种重要的思想,聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式是一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

文本聚类其实也就是在文本方向上的应用，首先我们要把一个个文档的自然语言转换成数学信息，这样形成高维空间点之后再去计算点与点之间的距离，然后将这些距离比较近的聚成一个簇，这些簇的中心成为簇心。而我们做的就是保证簇内点的距离足够近，簇与簇的距离足够远。

过程

第一部分：分词处理

我们要把中文文章要进行分词，这一点中文文章和英文文章有一些区别，因为英文单词是单个构成的，而我们中文是需要分词的。另外需要加入一个停用词表，在进行分词的时候进行去掉。

第二部分：分词后将分词转换为词向量

关于词向量我们有一些比较常用的模型，比如one-hot，BOW词袋模型，连续词袋模型(CBOW)和Skip-Gram模型和Word2vec模型。

第三部分：选择聚类算法

这里的

最低0.47元/天解锁文章

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
新手探索NLP（十二）——文本聚类

简介聚类又称群分析，是数据挖掘的一种重要的思想,聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式是一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。文本聚类其实也就是在文本方向上的应用，首先我们要把一个个文档的自然语言转换成数学信息，这样形成高维空间点之后再...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。