- 博客(6)
- 收藏
- 关注
原创 Gibbs采样算法求解LDA
1.Gibbs采样算法求解LDA的思路首先,回顾LDA的模型图如下:在Gibbs采样算法求解LDA的方法中,我们的α,η是已知的先验输入,我们的目标是得到各个,对应的整体,的概率分布,即文档主题的分布和主题词的分布。由于我们是采用Gibbs采样法,则对于要求的目标分布,我们需要得到对应分布各个特征维度的条件概率分布。 具体到问题,我们的所有文档联合起来形成的词向量是已知的数据,不知道的是语料库主题的分布。假如我们可以先求出w,z的联合分布p(,),进...
2021-08-14 16:46:15
765
原创 LDA的通俗理解
1.PLSA模型在讲解LDA模型之前,与LDA模型最为接近的便是下面要阐述的这个pLSA模型,给pLSA加上贝叶斯框架,便是LDA。1.1什么是pLSA模型我们假定一篇文档只由一个主题生成,可实际中,一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。假设你要写M篇文档,由于一篇文档由各个不同的词组成,所以你需要确定每篇文档里每个位置上的词。再假定...
2021-08-11 14:50:34
5951
1
原创 文本模型LDA基本原理及求解思路
1.LDA贝叶斯模型LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块。其中:先验分布 +数据(似然)=后验分布先验分布为:100个好人和100个的坏人,即认为好人坏人各占一半,现在如果你被2个好人(数据)帮助了和1个坏人骗了,于是你得到了新的后验分布为:102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布,当你被1个好人(数据)帮助了和3个坏人(数据)骗了后...
2021-08-03 20:07:03
2043
1
原创 svm学习中遇到的数学难点
关于KKT条件下的最优化问题其中g是不等式约束,h是等式约束,那么KKT条件就是函数的最优值,它必定满足下面条件:难点:第三个式子不好理解那么,以最简单的最优化问题形式为例:...
2021-07-27 20:36:00
234
原创 准确率、精确率、召回率、F1值学习笔记
一、TN、TP、TN、FP、FN概念TP与TN都是分对了情况,TP是正类,TN是负类。则推断出,FP是错误的正类,FN是错误的负类。 举例:我们需要从一个班级中的人中寻找所有女生,如果把这个任务当成一个分类器的话,那么女生就是我们需要的,而男生不是,所以我们称女生为"正类",而男生为"负类",那么可以用如下混淆矩阵来描述TP、TN、FP、FN。 相关(Relevant),正类 无关(NonRelevant),负类 被检索到(Retrieved) ...
2021-07-26 12:59:12
3784
原创 TextRank算法及TF-IDF算法基本原理
1.TextRank算法TextRank算法是一种文本排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。 TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下: WS(Vi):节点的权重。 d:阻尼系数,在PageRank算法中为...
2021-07-20 13:44:26
1442
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人