- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 LDA理解以及源码分析(二)
LDA系列的讲解分多个博文给出,主要大纲如下:LDA相关的基础知识 什么是共轭multinomial分布Dirichlet分布LDA in text LAD的概率图模型LDA的参数推导伪代码GibbsLDA++-0.2源码分析Python实现GibbsLDA参考资料GibbsLDA++-0.2源码分析GibbsLDA++-0.2工具包下载地址为:下载工具包里docs文件夹里有
2015-12-09 17:31:13 6790 1
原创 LDA理解以及源码分析(一)
LDA系列的讲解分多个博文给出,主要大纲如下:LDA相关的基础知识 什么是共轭multinomial分布Dirichlet分布LDA in text LAD的概率图模型LDA的参数推导伪代码GibbsLDA++-0.2源码分析Python实现GibbsLDA参考资料LDA相关的基础知识LDA是Blei于2002年发表的概率语言模型,被广泛应用于主题建模中,通过对文本进行潜语义
2015-12-09 17:27:15 17263 1
原创 Spark LDA
关于LDA的理论部分,参考其他博客(链接待定),本文主要记录spark中LDA的实现。spark1.4版本的LDA原文比较简单,下面主要是以翻译官网为主。理论部分LDA是一个主题模型,它能够推理出一个文本文档集合的主题。LDA可以认为是一个聚类算法,原因如下:主题对应聚类中心,文档对应数据集中的样本(数据行)主题和文档都在一个特征空间中,其特征向量是词频向量跟使用传统的距离来评估聚类不一样的是
2015-12-08 16:59:33 9765
原创 Intellij搭建spark开发环境
spark怎么学习呢?在一无所知的前提下,首先去官网快速了解一下spark是干什么的,官网在此。然后,安装开发环境,从wordcount开始学习。第三,上手以后可以学习其他算法了。最后,不要放弃,继续深入学习。那么,首先解决的就是如何搭建开发环境的问题。1、确保你的电脑安装了JDK,以及配置了JAVA_HOME环境变量。2、安装Intellij IDEA,下载地址。目前15.0版本对Scala的支持
2015-12-08 11:18:42 19666 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人