【大模型基础】12.1主题模型TopicModel（待）

dabaicong_

已于 2024-07-18 22:22:08 修改

阅读量223

点赞数 4

分类专栏：大模型文章标签：数据分析

于 2024-07-18 17:50:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46250943/article/details/140528821

版权

一、trick

1. 利用优质“少量”数据学习模型，缓解单机速度和内存问题，然后对剩余/新文档做推导（可数据并
行）。比如用微博训练LDA时，先把长度短的微博过滤掉（有工作得出长度为7的短文本适合LDA
进行学习），过滤相似微博（转发会造成很多近乎相同的微博）。当训练数据量大并且单机环境中
可试一下GraphLab Create，该工具还支持采样比较快的alias LDA。如果不仅是为了学习当前语料
中的主题分布，并且也用于预测新数据，则数据量越大越好。

2. 去除一些TF/DF较低/高的词，较低的词在拟合的过程中会被平滑掉，较高的词没有区分力，标点，助词，语气词也可以去掉（中文常用词60万左右）。在中文中应考虑全角变半角，去乱码，繁转
简，英文中考虑大小写转换。实际处理数据时会发现分词后不同词个数很容易达到百万级别，这里
很多词是没有意义的，数字词，长度过长的词，乱码词。此外，分词过程中如果两个词在一起的频
率比较高，那么分词结果会把两个词合并，那么合并与否对LDA的训练是否有影响呢？有的词应该
合并，比如”北京大学“，也有的词分开会好一些，比如”阶级斗争“。

3. 根据上下文合并短文本，比如合并用户所有的微博作为一个文档，合并相似的微博作为一个文档，
把微博当做一个查询，利用伪反馈来补充微博内容（中文微博比twitter字数更多一些，长微博不用
扩展已经可以正确分类，短微博本身可能就是歧义的，

最低0.47元/天解锁文章

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【大模型基础】12.1主题模型TopicModel（待）

LDA和PLSA的最大区别在于LDA对于Doc的Topic分布加上了一层先验，Doc-topic分布是当作模型变量，而LDA则只有一个超参数，Doc-Topic分布则是隐藏变量。4. Topic Model的训练是一个数据拟合过程，找出latent topic最大训练语料库的似然概率，当不同类的数据不平衡时，数量量少的主题可能会被数据量多的主题主导。2. 去除一些TF/DF较低/高的词，较低的词在拟合的过程中会被平滑掉，较高的词没有区分力，标点，助词，语气词也可以去掉（中文常用词60万左右）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。