用LDA处理文本(Python)

最新推荐文章于 2024-08-25 10:33:06 发布

JepsonWong

最新推荐文章于 2024-08-25 10:33:06 发布

阅读量8.6k

点赞数 3

分类专栏：机器学习文章标签： LDA Python 主题模型机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013710265/article/details/73480332

版权

一、LDA介绍

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

1、LDA生成过程

对于语料库中的每篇文档，LDA定义了如下生成过程（generativeprocess）：
(

最低0.47元/天解锁文章

关注

3
点赞
踩
46

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

JepsonWong CSDN认证博客专家 CSDN认证企业博客

码龄11年

100: 原创

17万+: 周排名

120万+: 总排名

33万+: 访问

: 等级

4123: 积分

110: 粉丝

74: 获赞

9: 评论

375: 收藏

私信

关注

热门文章

分类专栏

计算机系统结构 17篇
人工智能 1篇
机器学习 24篇
神经网络 1篇
自然语言处理 3篇
大数据 15篇
python 9篇
C++ 2篇
Java 3篇
Scala 7篇
Linux 12篇
线性代数 2篇
科学计算 2篇
最优化理论 1篇
开源硬件 9篇
算法 2篇
网络 9篇
TensorFlow 1篇
汇编语言 2篇
安全 1篇
其他 1篇

最新评论

特征工程（补充）--特征组合
Bullet@: 可以具体谈谈是怎么样让特征加减乘除组合的吗？
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
人工智能三要素
m0_49510957: 无限超级人工智能机器人可以帮助全人类获得无限算能造器来完成全人类的不死永生与无限飞穿！……………

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。