MaidMAX-CSDN博客

原创基于PLDA的中文文本聚类

最初是想弄种子词预训练的半监督引导式guided lda，但是经过反复尝试，guidld lda的库在windows上部署安装很麻烦，于是我想利用ai手搓一个简化版guided lda，优化来优化去，最后发现性能太差了，即便我都种子词质量还算可以，最终ari只有0.13左右；又决定在linux系统上完成环境搭建，奈何硬件拉跨，虚拟机跑不动，也只能放弃。后来我在github上找到了tomotopy 库，他的plda模型支持半监督的主题引导，而且可以设置先验词，为特定词汇增加属于某个主题的概率。

2025-10-18 00:08:28 1086

原创基于qlearning的三维路径规划

【代码】基于qlearning的三维路径规划。

2025-04-05 14:21:14 282 1

原创文本挖掘与分析实验四：基于lda模型的邮件分类

LDA通过多次迭代，利用每个词的主题概率分布来调整主题的归属。每次迭代中，LDA会基于词频和文档主题分布更新每个词的主题，并调整文档的主题比例。经过足够多的迭代，LDA会收敛，并最终得到每个文档的主题分布以及每个主题的词汇分布。这个过程的核心是推断：LDA并不是直接给每个词分配一个主题，而是通过反复的推理和调整，逐渐找到每个词和主题之间的最优关系。

2025-03-31 16:42:03 1006

原创文本挖掘与分析实验三：计算文本相似度

通过提取文本的关键词，默认使用TF-IDF算法。你可以通过加载自定义词典、设置停用词表和使用自定义 IDF 文件来优化 TF-IDF 的效果，特别是在处理专业领域的文本时（如小说或特定行业的文档）。你可以通过参数获取每个关键词的权重，帮助你了解其重要性。文档预处理：对文本进行分词。BOW 生成：创建词汇字典并将文档转化为 BOW 向量。TF-IDF 计算：利用TfidfModel对 BOW 向量进行处理，计算每个词汇的 TF-IDF 值。

2025-03-12 19:04:40 1104

原创文本挖掘与分析实验二：re模块使用

re的基础使用

2025-03-01 21:54:58 1141

原创算法：二分

没有系统地去学习学习，平时做二分时细节总是处理不好。什么时候需要？这里始终向逼近，并确保不会卡在的情况下死循环。这取决于二分查找的逻辑： / / 这个问题直接决定最终停在哪个位置。而：

2025-03-01 16:52:40 384

原创文本挖掘与分析实验一：使用jieba库对中文词库进行分词

jieba入门

2025-02-23 23:57:19 1196

2302_78852362的博客