u013250861
这个作者很懒,什么都没留下…
展开
-
机器学习-无监督学习-主题模型:概述【用来在大量文档中发现潜在主题的一种统计模型】【生成式有向图模型:“文档”是“主题”的概率分布,“主题”是“单词”的概率分布】【在推荐系统领域又称“隐语义模型”】
(Topic Model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。主题就是一个概念、一个方面。它表现为“一系列相关的词”,能够代表这个主题。比如如果是”阿里巴巴“主题,那么”马云“、”电子商务“等词会很高的频率出现,而涉及到”腾讯“主题,那么“马化腾”、“游戏”、“QQ”会以较高的频率出现。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布,与主题密切相关的词,条件概率p(w∣z。原创 2022-01-09 18:33:23 · 1444 阅读 · 0 评论 -
机器学习-无监督学习-聚类:聚类方法(一)--- k-Means(k-均值)算法,k-Means++算法【使用最大期望值算法(EM算法)来求解】
k-Means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。k-Means其实包含两层内容:- K : 初始中心点个数(计划聚类数)- means:求中心点到其他数据点距离的平均值原创 2020-11-24 19:10:12 · 2153 阅读 · 0 评论 -
机器学习-无监督学习-聚类:聚类方法(二)--- 基于密度的聚类算法【DBSCAN文本聚类算法,密度最大值文本聚类算法】
密度聚类方法的指导思想是,只要样本点的密度大于某阀值,则将该样本添加到最近的簇中。基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一个区域中的样本密度大于某个阈值,就把它划入与之相近的簇中。密度聚类从样本密度的角度进行考察样本之间的可连接性,并由可连接样本不断扩展直到获得最终的聚类结果。这类算法可以克服K-means、BIRCH等只适用于凸样本集的情况。原创 2021-04-13 11:33:16 · 1944 阅读 · 0 评论 -
机器学习-无监督学习-聚类:聚类方法(三)--- 谱聚类算法(Spectral Clustering)【拉普拉斯矩阵、随机游走拉普拉斯矩阵、对称拉普斯矩阵】
谱聚类是一种基于图论的聚类方法,通过对样本数据的**拉普拉斯矩阵**的**特征向量**进行聚类,从而达到对样本数据聚类的目的。- 谱聚类可以理解为将高维空间的数据映射到低维,然后在低维空间用其它聚类算法(如k-Means)进行聚类。原创 2021-04-13 11:34:26 · 829 阅读 · 0 评论 -
机器学习-无监督学习-聚类:聚类方法(四)--- 层次聚类算法
机器学习-无监督学习-聚类:凝聚式层次聚类算法原创 2021-04-13 11:37:07 · 501 阅读 · 0 评论 -
机器学习-无监督学习-聚类方法(六):高斯混合模型(GMM)【用最大期望值算法(EM)求解】【K个单高斯模型的线性组合;每个单高斯模型对应一种类别;优于K-means。参数:方差σ、均值μ、权值π】
高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。实际上在特定约束条件下,K-means算法可以被看作是高斯混合模型(GMM)的一种特殊形式。原创 2021-04-13 11:35:40 · 3427 阅读 · 0 评论 -
机器学习-无监督学习-聚类:聚类方法(五)--- 均值漂移聚类
均值漂移聚类是基于滑动窗口的算法,来找到数据点的密集区域。这是一个基于质心的算法,通过将中心点的候选点更新为滑动窗口内点的均值来完成,来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口进行去除,最终形成中心点集及相应的分组。具体步骤:1. 确定滑动窗口半径r,以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法,在每一次迭代中向密度更高的区域移动,直到收敛。2. 每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度。在每一次移动中,窗原创 2020-12-27 23:32:59 · 1539 阅读 · 0 评论 -
无监督-主题模型(TM)/隐语义模型(LFM)(一):矩阵分解(MF) --> 奇异值分解(SVD)【R_{m×n}=P_{m×k}×Q_{k×n}】-->求解最优P、Q:梯度下降算法 / ALS算法
特征值分解与PCA一个矩阵的特征值分解可以将矩阵分解为更加规则和简单的子矩阵A=PTΣP ,而且这些子矩阵从不同侧面描述了原矩阵的主要特征,如P(特征向量做列向量的矩阵)描述了新投影方向,在这个方向上A表示的线性变换速度最快,而Σ描述了对应方向上的伸缩速度。但是不是所有矩阵都可以轻易地如此分解,当且仅当A有满秩的线性无关的特征向量,才可以做这样的分解。不过,有一种特殊的矩阵——实对称矩阵,一定存在与维数相同个不等的特征值,也即存在与维数相同个线性无关且正交的特征向量。PCA也就是利用了这一结论,因原创 2020-12-27 23:06:17 · 542 阅读 · 0 评论 -
无监督-主题模型(TM)/隐语义模型(LFM)(二):LSA/LSI(潜在语义分析/索引)【基于SVD矩阵分解】【最早出现的主题模型,基本不再使用】
在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法。在数据分析中,我们经常会进行**非监督**学习的**聚类算法**,它可以对我们的特征数据进行非监督的聚类。而**主题模型**也是**非监督**的,目的是**得到文本按照主题的概率分布**。从这个方面来说,**主题模型**和普通的**聚类算法**非常的类似。但是两者其实还是有区别的。- 聚类算法关注于从样本特征的相似度方面将数.........原创 2020-12-27 23:23:45 · 777 阅读 · 0 评论 -
无监督-主题模型(TM)/隐语义模型(LFM)(三):pLSA算法(概率潜在语义分析)【有向图模型,将主题作隐变量,构建贝叶斯网,用EM算法估计模型参数】【pLSA属于LSA到LDA的过渡,很少使用】
人工智能-机器学习-算法-无监督学习:Topic Model(主题模型)算法–>PLSA(Probabilistic Latent Semantic Analysis, 概率潜在语义分析)原创 2020-12-27 23:29:13 · 481 阅读 · 0 评论 -
无监督-主题模型(TM)/隐语义模型(LFM)(四):LDA(隐狄利克雷分布)【 数据(似然)(多项分布)+先验分布(狄雷分布)-> 后验分布(狄雷分布),后验分布作为下一轮的先验分布】【广泛使用】
LDA(Latent Dirichlet Allocation)模型是一种引入全概率模型的文本主题表示方法,其核心是:根据文本主题分布和主题词语分布的狄利克雷先验假设,结合词语样本信息,计算文本后验主题词语分布的贝叶斯估算过程。模型可以对语料库 DDD 中任意文本 mmm ,建模生成对应的主题概率分布:模型推导过程结合联合概率公式描述如下:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是由 David M. Blei、Andrew Y. Ng、Michael I原创 2020-12-06 21:07:43 · 1030 阅读 · 0 评论