自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Gibbs采样算法求解LDA

1.Gibbs采样算法求解LDA的思路首先,回顾LDA的模型图如下:在Gibbs采样算法求解LDA的方法中,我们的α,η是已知的先验输入,我们的目标是得到各个,对应的整体,的概率分布,即文档主题的分布和主题词的分布。由于我们是采用Gibbs采样法,则对于要求的目标分布,我们需要得到对应分布各个特征维度的条件概率分布。  具体到问题,我们的所有文档联合起来形成的词向量是已知的数据,不知道的是语料库主题的分布。假如我们可以先求出w,z的联合分布p(,),进...

2021-08-14 16:46:15 765

原创 LDA的通俗理解

1.PLSA模型在讲解LDA模型之前,与LDA模型最为接近的便是下面要阐述的这个pLSA模型,给pLSA加上贝叶斯框架,便是LDA。1.1什么是pLSA模型我们假定一篇文档只由一个主题生成,可实际中,一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。假设你要写M篇文档,由于一篇文档由各个不同的词组成,所以你需要确定每篇文档里每个位置上的词。再假定...

2021-08-11 14:50:34 5951 1

原创 文本模型LDA基本原理及求解思路

1.LDA贝叶斯模型LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块。其中:先验分布 +数据(似然)=后验分布先验分布为:100个好人和100个的坏人,即认为好人坏人各占一半,现在如果你被2个好人(数据)帮助了和1个坏人骗了,于是你得到了新的后验分布为:102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布,当你被1个好人(数据)帮助了和3个坏人(数据)骗了后...

2021-08-03 20:07:03 2043 1

原创 svm学习中遇到的数学难点

关于KKT条件下的最优化问题其中g是不等式约束,h是等式约束,那么KKT条件就是函数的最优值,它必定满足下面条件:难点:第三个式子不好理解那么,以最简单的最优化问题形式为例:...

2021-07-27 20:36:00 234

原创 准确率、精确率、召回率、F1值学习笔记

一、TN、TP、TN、FP、FN概念TP与TN都是分对了情况,TP是正类,TN是负类。则推断出,FP是错误的正类,FN是错误的负类。 举例:我们需要从一个班级中的人中寻找所有女生,如果把这个任务当成一个分类器的话,那么女生就是我们需要的,而男生不是,所以我们称女生为"正类",而男生为"负类",那么可以用如下混淆矩阵来描述TP、TN、FP、FN。 相关(Relevant),正类 无关(NonRelevant),负类 被检索到(Retrieved) ...

2021-07-26 12:59:12 3784

原创 TextRank算法及TF-IDF算法基本原理

1.TextRank算法TextRank算法是一种文本排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。 TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下:​​​​​​ WS(Vi):节点的权重。 d:阻尼系数,在PageRank算法中为...

2021-07-20 13:44:26 1442

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除