gibbslda java_LDA 理解及分析 | 学步园

首先给出一些参考网址:

第一个讲的很仔细了

这里我主要是对自己理解的一个总结:

LDA是什么,其实就是一个简单的model。

他能用来干什么呢?他可以用来提取主题,例如我们有一堆的文本或者文档,我们希望得到这些文档包含了那些主题,这个时候我们可以去用LDA模型

我们可以规定提取几个主题和每个主题都包括多少个word,这个是lda可以实现的。

LDA涉及到什么知识:

Direchle Process,吉布斯采样,Gamma分布等等,

但是我们不能被这个吓住了,看LDA的paper也觉得很困难,公式一大堆对吧

其实说白了一直是在找一个公式去计算word-topic,topic-document 和document-word的概率吗

我们先不管这些东西怎么算:

我告诉大家这个东西:

在初始化的时候我们有了alpha和beta,这两个参数就已经告诉了我们topic-document和topic-word的概率了

因为这两个参数告诉了我们topic-document和topic-word的direchlet分布。

那么大家一定觉得这个计算完了,既然已经知道了分布,那就结束了啊

但是我们知道了分布,但是我们不知道如何去分布每个topic中的单词

这个问题如何解决?

于是大家用到了吉布斯采样,也有用用EM

吉布斯采样是MCMC的一个特殊情况。

吉布斯参与的目的是什么呢?

我们用吉布斯参与去更新每一个单词的topic分布,从而达到一个稳定值

这个过程

这个bolg里面的代码是LDA的一个java代码

代码很简单,也方便大家的理解。

如果那里写的不对,希望大家指出,互相学习。

在该作者(http://blog.csdn.net/yangliuy/article/details/8457329)的基础上添加中文分词,实现中文主题发现。相关的文档请到原版作者查阅。谢谢! 也许是待分析的语料太少,效果好像不是很好。 目前的语料输出结果如下: topic 0 : 等 0.010036719031631947 这样 0.010036719031631947 但 0.010036719031631947 下 0.007588739041239023 很难 0.007588739041239023 一个 0.007588739041239023 于 0.007588739041239023 亿元 0.0051407585851848125 目前 0.0051407585851848125 带动 0.0051407585851848125 上 0.0051407585851848125 提出 0.0051407585851848125 地 0.0051407585851848125 做 0.0051407585851848125 技术 0.0051407585851848125 水平 0.0051407585851848125 不 0.0051407585851848125 作 0.0051407585851848125 其实 0.0051407585851848125 市场 0.0051407585851848125 topic 1 : 在 0.02684444561600685 和 0.023288888856768608 对 0.012622222304344177 进行 0.010844443924725056 为 0.009066666476428509 与 0.009066666476428509 选择 0.009066666476428509 还是 0.009066666476428509 其中 0.0072888885624706745 主要 0.0072888885624706745 而 0.0072888885624706745 只有 0.0072888885624706745 看 0.0072888885624706745 遇到 0.0072888885624706745 3 0.005511111114174128 把 0.005511111114174128 也 0.005511111114174128 注意 0.005511111114174128 时间 0.005511111114174128 一种 0.005511111114174128 topic 2 : 英语 0.012685983441770077 考生 0.012685983441770077 可以 0.011119811795651913 词汇 0.009553641080856323 句子 0.009553641080856323 时 0.007987470366060734 就 0.007987470366060734 考试 0.007987470366060734 阅读 0.007987470366060734 写作 0.007987470366060734 上 0.006421299651265144 才能 0.006421299651265144 很多 0.006421299651265144 理解 0.006421299651265144 一些 0.006421299651265144 复习 0.006421299651265144 基础 0.006421299651265144 翻译 0.006421299651265144 大家 0.006421299651265144 根据 0.006421299651265144 topic 3 : 等 0.01035533007234335 公司 0.008324872702360153 网上 0.008324872702360153 法院 0.008324872702360153 和 0.0062944162636995316 迪 0.0062944162636995316 志 0.0062944162636995316 经营 0.0062944162636995316 易趣网 0.0062944162636995316 进 0.0062944162636995316 在 0.004263959359377623 该 0.004263959359377623 其 0.004263959359377623 拥有 0.004263959359377623 5 0.004263959359377623 记者 0.004263959359377623 巨头 0.004263959359377623 直接 0.004263959359377623 研究所 0.004263959359377623 文渊阁 0.004263959359377623 topic 4 : 来 0.010161090642213821 中国 0.010161090642213821 之后 0.007682775612920523 主要 0.007682775612920523 2005年 0.005204460583627224 生产 0.005204460583627224 发展 0.005204460583627224 消费 0.005204460583627224 企业 0.005204460583627224 能 0.005204460583627224 这是 0.005204460583627224 还得 0.005204460583627224 工业 0.005204460583627224 百强 0.005204460583627224 发布 0.005204460583627224 各项 0.005204460583627224 药 0.005204460583627224 会上 0.005204460583627224 汽车 0.002726146252825856 专用汽车 0.002726146252825856 topic 5 : 表示 0.005761316511780024 信息 0.005761316511780024 人们 0.005761316511780024 认为 0.005761316511780024 接受 0.005761316511780024 时 0.005761316511780024 人 0.005761316511780024 没有 0.005761316511780024 最高 0.005761316511780024 过热 0.0030178327579051256 余 0.0030178327579051256 亩 0.0030178327579051256 工程 0.0030178327579051256 系列 0.0030178327579051256 行业 0.0030178327579051256 必须有 0.0030178327579051256 空间 0.0030178327579051256 则 0.0030178327579051256 二次 0.0030178327579051256 专家 0.0030178327579051256 topic 6 : 实力 0.008062418550252914 已经 0.008062418550252914 不同 0.008062418550252914 资金 0.005461638327687979 大量 0.005461638327687979 比 0.005461638327687979 成为 0.005461638327687979 质量 0.005461638327687979 略有 0.005461638327687979 相当 0.005461638327687979 成功 0.005461638327687979 高度 0.005461638327687979 盘 0.005461638327687979 来看 0.005461638327687979 看到 0.005461638327687979 数据 0.005461638327687979 大 0.005461638327687979 越来越多 0.005461638327687979 楼 0.005461638327687979 投资 0.0028608583379536867 topic 7 : 以 0.009867629036307335 nbsp 0.0074608903378248215 曼 0.0074608903378248215 桢 0.0074608903378248215 7 0.005054151173681021 2 0.005054151173681021 其 0.005054151173681021 300 0.005054151173681021 就是 0.005054151173681021 他 0.005054151173681021 又 0.005054151173681021 半生 0.005054151173681021 缘 0.005054151173681021 香港 0.005054151173681021 她也 0.005054151173681021 世 0.005054151173681021 璐 0.005054151173681021 祝 0.005054151173681021 鸿 0.005054151173681021 文 0.005054151173681021 topic 8 : 在 0.016857441514730453 小 0.012695109471678734 这 0.010613943450152874 袁 0.010613943450152874 电话 0.010613943450152874 上海 0.008532778359949589 东莞 0.008532778359949589 总部 0.006451612804085016 没有 0.006451612804085016 他 0.006451612804085016 大学生 0.006451612804085016 设立 0.006451612804085016 随后 0.006451612804085016 才 0.006451612804085016 广东 0.004370447248220444 不少 0.004370447248220444 依然 0.004370447248220444 回 0.004370447248220444 该公司 0.004370447248220444 15日 0.004370447248220444 topic 9 : 旅游 0.016091953963041306 游客 0.01432360801845789 解析 0.009018567390739918 五一 0.009018567390739918 接待 0.009018567390739918 增长 0.009018567390739918 再次 0.0072502209804952145 黄金周 0.0072502209804952145 南京 0.0072502209804952145 里 0.0072502209804952145 人次 0.0072502209804952145 景点 0.0072502209804952145 也 0.005481874104589224 以上 0.005481874104589224 已经 0.005481874104589224 数据 0.005481874104589224 今年 0.005481874104589224 同期 0.005481874104589224 周边 0.005481874104589224 景区 0.005481874104589224
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值