- 博客(7)
- 收藏
- 关注
原创 基于PLDA的中文文本聚类
最初是想弄种子词预训练的半监督引导式guided lda,但是经过反复尝试,guidld lda的库在windows上部署安装很麻烦,于是我想利用ai手搓一个简化版guided lda,优化来优化去,最后发现性能太差了,即便我都种子词质量还算可以,最终ari只有0.13左右;又决定在linux系统上完成环境搭建,奈何硬件拉跨,虚拟机跑不动,也只能放弃。后来我在github上找到了tomotopy 库,他的plda模型支持半监督的主题引导,而且可以设置先验词,为特定词汇增加属于某个主题的概率。
2025-10-18 00:08:28
1086
原创 文本挖掘与分析实验四:基于lda模型的邮件分类
LDA通过多次迭代,利用每个词的主题概率分布来调整主题的归属。每次迭代中,LDA会基于词频和文档主题分布更新每个词的主题,并调整文档的主题比例。经过足够多的迭代,LDA会收敛,并最终得到每个文档的主题分布以及每个主题的词汇分布。这个过程的核心是推断:LDA并不是直接给每个词分配一个主题,而是通过反复的推理和调整,逐渐找到每个词和主题之间的最优关系。
2025-03-31 16:42:03
1006
原创 文本挖掘与分析实验三:计算文本相似度
通过提取文本的关键词,默认使用TF-IDF算法。你可以通过加载自定义词典、设置停用词表和使用自定义 IDF 文件来优化 TF-IDF 的效果,特别是在处理专业领域的文本时(如小说或特定行业的文档)。你可以通过参数获取每个关键词的权重,帮助你了解其重要性。文档预处理:对文本进行分词。BOW 生成:创建词汇字典并将文档转化为 BOW 向量。TF-IDF 计算:利用TfidfModel对 BOW 向量进行处理,计算每个词汇的 TF-IDF 值。
2025-03-12 19:04:40
1104
原创 算法:二分
没有系统地去学习学习,平时做二分时细节总是处理不好。什么时候需要 ? 这里 始终向 逼近,并确保不会卡在 的情况下死循环。 这取决于 二分查找的逻辑: / / 这个问题直接决定最终 停在哪个位置。 而:
2025-03-01 16:52:40
384
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1