文本话题聚类（Kmeans/LDA）

最新推荐文章于 2020-08-04 22:47:02 发布

置顶

数据之心

最新推荐文章于 2020-08-04 22:47:02 发布

阅读量1.5w

点赞数 13

本文链接：https://blog.csdn.net/u012343685/article/details/88919391

版权

本文深入探讨了文本聚类的两种常见方法：K-means和LDA。K-means是一种无监督学习算法，用于将数据点分配到多个簇中，而LDA是一种基于贝叶斯模型的主题模型。K-means算法易受初始质心影响，可能陷入局部最优，而LDA考虑了词与主题的潜在分布关系，提供了概率解释。此外，文章还介绍了肘部法用于确定K-means的最佳簇数，以及如何使用gensim库进行LDA模型训练。

摘要由CSDN通过智能技术生成

K-means

1 聚类是一种无监督的学习方法。聚类区别于分类，即事先不知道要寻找的内容，没有预先设定好的目标变量。

2 聚类将数据点归到多个簇中，其中相似的数据点归为同一簇，而不相似的点归为不同的簇。相似度的计算方法有很多，具体的应用选择合适的相似度计算方法。

3 K-means聚类算法，是一种广泛使用的聚类算法，其中k是需要指定的参数，即需要创建的簇的数目，K-means算法中的k个簇的质心可以通过随机的方式获得，但是这些点需要位于数据范围内。在算法中，计算每个点到质心得距离，选择距离最小的质心对应的簇作为该数据点的划分，然后再基于该分配过程后更新簇的质心。重复上述过程，直至各个簇的质心不再变化为止。

4 K-means算法虽然有效，但是容易受到初始簇质心的情况而影响，有可能陷入局部最优解。为了解决这个问题，可以使用另外一种称为二分K-means的聚类算法。二分K-means算法首先将所有数据点分为一个簇；然后使用K-means（k=2）对其进行划分；下一次迭代时，选择使得SSE下降程度最大的簇进行划分；重复该过程，直至簇的个数达到指定的数目为止。实验表明，二分K-means算法的聚类效果要好于普通的K-means聚类算法。

_____________________________________________________________

LDA

概率论中两大学派：

频率学派和贝叶斯学派。先验概率，后验概率，共轭分布和共轭先验是贝叶斯学派中的几个概念。原因是贝叶斯学派认为分布存在先验分布和后验分布的不同，而频率学派则认为一个事件的概率只有一个。

基本概率分布：

先验分布（prior probability），后验分布（posterior probability），似然函数（likelyhood function）,共轭分布(conjugacy)

共轭分布(conjugacy)：后验概率分布函数与先验概率分布函数具有相同形式

采用共轭先验的原因：

可以使得先验分布和后验分布的形式相同，这样一方面合符人的直观（它们应该是相同形式的）另外一方面是可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。

为了使得先验分布和后验分布的形式相同，我们定义：

如果先验分布和似然函数可以使得先验分布和后验分布（posterior distributions）有相同的形式，那么就称先验分布与似然函数是共轭的。所以，共轭是指的先验分布(prior probability distribution)和似然函数(likelihood function)。如果某个随机变量Θ的后验概率 p(θ|x)和气先验概率p(θ)属于同一个分布簇的，那么称p(θ|x)和p(θ)为共轭分布，同时，也称p(θ)为似然函数p(x|θ)的共轭先验。

参数估计：

离散型随机变量分布：二项式分布，多项式分布；

连续型随机变量分布：正态分布。

他们都可以看作是参数分布，因为他们的函数形式都被一小部分的参数控制，比如正态分布的均值和方差，二项式分布事件发生的概率等。因此，给定一堆观测数据集（假定数据满足独立同分布），我们需要有一个解决方案来确定这些参数值的大小，以便能够利用分布模型来做密度估计。这就是参数估计。

从两个学派角度考虑参数估计：

频率学派：通过某些优化准则（比如似然函数）来选择特定参数值；

贝叶斯学派：假定参数服从一个先验分布，通过观测到的数据，使用贝叶斯理论计算对应的后验分布。

先验和后验的选择满足共轭，这些分布都是指数簇分布的例子。

PCA降维

PCA的思想其实简单的概括就是：选取包含信息量最多的方向对数据进行投影，其投影方向可以从最大化方差或者最小化投影误差两个角度来理解。方差大说明包含的信息量大。所以PCA的思想就是通过最大化方差来找到合适的投影方向。

小结：

PCA，主成分分析，何为主成分？其实可以理解成一个个投影方向。而PCA要做的就是找到一个合适的投影方向，把原有的高维空间的数据映射到一个低维的空间，从而实现降维。

那么这个方向如何寻找的，标准是什么呢？PCA希望投影后的数据有尽可能大的方差。有了这个目标之后，我们就可以开始用数学语言取描述，后面如何求解这个优化的目标呢？拉格朗日乘子法，最后会发现把问题转成求特征值和特征向量的问题，得到这些投影方向后，自然降维的事情也就水到渠成了。

SVD与PCA关系：对数据集X做SVD就可以直接得到PCA的结果Y。SVD其实可以用来求PCA，当然SVD 在机器学习中用于推荐系统的作用也为大家所熟知。

—————————————————————————————

NLP知识梳理：

—————————————————————————————

文本挖掘的分词原理：

现代分词都是基于统计的分词，而统计的样本内容来自于一些标准的语料库。一句话要分词，我们要求的是概率最大分词结果，这里涉及到所有词的联合概率分布，以及简化版的马尔科夫假设；利用语料库建立的统计概率，对于一个新的句子，我们就可以通过计算各种分词方法对应的联合分布概率，找到最大概率对应的分词方法，即为最优分词。

N元模型，实际中N一般取4，即当前词依赖前4个词；

某些生僻词，或者相邻分词联合分布在语料库中没有，概率为0。这种情况我们一般会使用拉普拉斯平滑，即给它一个较小的概率值；

维特比算法与分词

对于一个有很多分词可能的长句子，我们当然可以用暴力方法去计算出所有的分词可能的概率，再找出最优分词方法。但是用维特比算法可以大大简化求出最优分词的时间。

大家一般知道维特比算法是用于隐式马尔科夫模型HMM解码算法的，但是它是一个通用的求序列最短路径的方法，不光可以用于HMM，也可以用于其他的序列最短路径算法，比如最优分词。

维特比算法采用的是动态规划来解决这个最优分词问题的，动态规划要求局部路径也是最优路径的一部分，很显然我们的问题是成立的。

—————————————————————————————

文本挖掘预处理之向量化与Hash Trick

词袋模型

总结下词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）。

与词袋模型非常类似的一个模型是词集模型(Set of Words,简称SoW)，和词袋模型唯一的不同是它仅仅考虑词是否在文本中出现，而不考虑词频。词袋模型有很大的局限性，因为它仅仅考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。但是大多数时候，如果我们的目的是分类聚类，则词袋模型表现的很好。

Hash Trick

向量化的方法很好用，也很直接，但是在有些场景下很难使用，比如分词后的词汇表非常大，达到100万+，此时如果我们直接使用向量化的方法，将对应的样本对应特征矩阵载入内存，有可能将内存撑爆，在这种情况下我们怎么办呢？第一反应是我们要进行特征的降维，说的没错！而Hash Trick就是非常常用的文本特征降维方法。

和PCA类似，Hash Trick降维后的特征我们已经不知道它代表的特征名字和意义。此时我们不能像上一节向量化时候可以知道每一列的意义，所以Hash Trick的解释性不强。

一般来说，只要词汇表的特征不至于太大，大到内存不够用，肯定是使用一般意义的向量化比较好。因为向量化的方法解释性很强，我们知道每一维特征对应哪一个词，进而我们还可以使用TF-IDF对各个词特征的权重修改，进一步完善特征的表示。

而Hash Trick用大规模机器学习上，此时我们的词汇量极大，使用向量化方法内存不够用，而使用Hash Trick降维速度很快，降维后的特征仍然可以帮我们完成后续的分类和聚类工作。当然由于分布式计算框架的存在，其实一般我们不会出现内存不够的情况。因此，实际工作中我使用的都是特征向量化。

—————————————————————————————

文本挖掘预处理之TF-IDF

TF-IDF是非常常用的文本挖掘预处理基本步骤，但是如果预处理中使用了Hash Trick，则一般就无法使用TF-IDF了，因为Hash Trick后我们已经无法得到哈希后的各特征的IDF的值。使用了IF-IDF并标准化以后，我们就可以使用各个文本的词特征向量作为文本的特征，进行分类或者聚类分析。当然TF-IDF不光可以用于文本挖掘，在信息检索等很多领域都有使用。因此值得好好的理解这个方法的思想。

—————————————————————————————

中文文本挖掘预处理流程总结

中文文本挖掘预处理特点

第一，中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词;

第二，中文的编码不是utf8，而是unicode。这样会导致在分词的时候，和英文相比，我们要处理编码的问题。

中文文本挖掘预处理一：数据收集

第一种方法，常用的文本语料库在网上有很多，如果大家只是学习，则可以直接下载下来使用，但如果是某些特殊主题的语料库，比如“机器学习”相关的语料库，则这种方法行不通，需要我们自己用第二种方法去获取。

第二种使用爬虫的方法，开源工具有很多，通用的爬虫我一般使用beautifulsoup。但是我们我们需要某些特殊的语料数据，比如上面提到的“机器学习”相关的语料库，则需要用主题爬虫（也叫聚焦爬虫）来完成。这个我一般使用ache。 ache允许我们用关键字或者一个分类算法来过滤出我们需要的主题语料，比较强大。

中文文本挖掘预处理二：除去数据中非文本部分

这一步主要是针对我们用爬虫收集的语料数据，由于爬下来的内容中有很多html的一些标签，需要去掉。少量的非文本内容的可以直接用Python的正则表达式(re)删除, 复杂的则可以用beautifulsoup来去除。去除掉这些非文本的内容后，我们就可以进行真正的文本预处理了。

中文文本挖掘预处理三：处理中文编码问题

由于Python2不支持unicode的处理，因此我们使用Python2做中文文本预处理时需要遵循的原则是，存储数据都用utf8，读出来进行中文相关处理时，使用GBK之类的中文编码，在下面一节的分词时，我们再用例子说明这个问题。