自然语言处理
文章平均质量分 73
Marvin Ming
目前在国企研究院做软件研发项目,擅长Python,爬虫、数据分析、软件开发和后端均有涉猎。
关于博客文章有任何问题请留言,我会不定期回复,欢迎交流,但百度10分钟内能够解决的问题不会回复。
其他问题可通过邮箱联系:constmmq@163.com。
展开
-
python实现首字散列其余二分的字典树
目前正在学习《自然语言处理入门》这本书,第二章 词典分词部分涉及字典树的内容较多,在字典树的基础上又介绍了首字散列其余二分的字典树、双数组字典树、AC自动机,越往后难度越大越难理解,因此理解字典树非常重要,所以参考原书代码和网上代码,敲了一遍首字散列其余二分的字典树的python实现代码,目的在于加深对字典树的理解。算法和概念部分可学习参考资料2,此处不再赘述。原创 2022-05-18 18:37:30 · 527 阅读 · 0 评论 -
python正则表达式若干示例
在用python进行数据处理或者分析结果使,经常需要提取文本中的相关内容,这种情形下利用python的re模块来进行处理是较为高效的一种方法。 下面我将根据几种应用场景来详细讲解如何在python下利用正则来实现各种功能。 场景一:获取文本中所有双引号中的内容 下面这段内容是我lda训练输出的topic-word结果,包含了每个主题对应的词汇和其概率,我需要将所有的词汇提取出来,便于分析主题原创 2018-01-18 18:07:53 · 1403 阅读 · 0 评论 -
python下进行lda主题挖掘(三)——计算困惑度perplexity
训练好LDA主题模型后,如何评价模型的好坏?能否直接将训练好的模型拿去应用?这是一个比较重要的问题,在对模型精度要求比较高的项目或科研中,需要对模型进行评价。一般来说,LDA模型的主题数量都是需要需要根据具体任务进行调整的,即要评价不同主题数的模型的困惑度来选择最优的那个模型。...原创 2018-03-07 17:07:19 · 61769 阅读 · 100 评论 -
python下进行lda主题挖掘(一)——预处理(英文)
到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。欢迎阅读并交流。python下进行lda主题挖掘(一)——预处理(英文) python下进行lda主题挖掘(二)——利用gensim训练LDA模型 python下进行lda主题挖掘(三)——计算困惑度perplexity写在前面本人打算将LDA这部分的内容写成一个系列,不涉及算法思想,...原创 2018-03-02 23:18:21 · 33883 阅读 · 21 评论 -
python下进行lda主题挖掘(二)——利用gensim训练LDA模型
到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。python下进行lda主题挖掘(一)——预处理(英文) python下进行lda主题挖掘(二)——利用gensim训练LDA模型 python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇,介绍如何利用gensim包提供的方法来训练自己处...原创 2018-03-03 13:26:22 · 40682 阅读 · 24 评论