![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
hylalalala
这个作者很懒,什么都没留下…
展开
-
主题词获取
获取文档的主题词最近工作中需要提取文本数据的主题词,所以就整理了一下相关的方法tf-idf首先是wiki的定义tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成...原创 2020-01-16 11:43:30 · 866 阅读 · 0 评论 -
LDA模型的封装
#conding=utf-8import codecsimport refrom os import mkdirfrom os.path import exists, isdir, abspath, joinimport gensimimport jieba.posseg as psegimport yamlfrom gensim import corpora#1.数据处理工...原创 2020-01-09 19:04:23 · 245 阅读 · 0 评论 -
gensim训练LDA实战
gensim中lda模型的使用1.首先是模型的训练1.1 数据格式在使用gensim训练LDA模型之前需要先训练一个词袋模型词袋模型的输入数据是分词后的词列表多个数据时就是列表套列表,如:[[想,买辆,汽车]]1.2 构建词典from gensim import corpora, modelsdictionary = corpora.Dictionary(train)词典可...原创 2020-01-08 18:22:42 · 3647 阅读 · 2 评论 -
nlp中一些好的模型的地址
1.word2vec模型https://github.com/Embedding/Chinese-Word-Vectors原创 2019-12-31 15:10:31 · 154 阅读 · 0 评论 -
LDA 学习笔记
1.LDA算法的介绍1.1 算法的基本知识隐含狄利克雷分布(Latent Dirichlet Allocation,LDA) 和机器学习中的线性判别分析(Linear Discriminant Analysis)不一样首先是对狄利克雷分布的大致介绍 其就是对多项分布的先验分布.先验分布就是指对于可能出现的分布给出一个预设分布(根据背景知识),然后根据实际的样本信息去更新这个分布,最...原创 2019-12-11 17:28:30 · 1467 阅读 · 0 评论