![](https://img-blog.csdnimg.cn/b210662b664044d9b7b578460aca4cef.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理
文章平均质量分 75
机器学习、文本挖掘、情感分析等自然语言处理相关的学习笔记和项目经验以及代码分享。
饕餮&化骨龙
喜欢Python编程,热衷数据分析挖掘与网络爬虫
展开
-
Python实现node2vec构建词向量
一、node2vec原理node2vec是由Perozzi 等学者提出的将 word2vec 的思想用于图节点表示学习的一种Deepwalk 算法, 该算法在Deepwalk的基础上改变了随机游走的序列生成方式, 通过半监督的方式学习ppp, qqq 两个超参数的值, 控制游走对深度和广度的趋向, 其中ppp控制跳向前节点邻居的概率, qqq控制跳向前节点非邻居的概率, 如图所示:当q>1q>1q>1时, 趋向于遍历临近ttt节点的x1x_1x1节点,即趋向于BFS;当p>1原创 2021-11-26 15:56:21 · 2832 阅读 · 0 评论 -
tfidf和word2vec构建文本词向量并做文本聚类
一、相关方法原理1、tfidf2、word2vec3、文本聚类代码实现原创 2021-11-18 15:55:00 · 12342 阅读 · 10 评论 -
Python实现共现语义网络
一、共现语义网络原理共现语义网络是用于表示词与词之间的语义关系的一种网络理论,由美国人工智能专家司马贺在1973年提出的。其原理就是以词语为网络的结点,以沟通结点的共现次数表示词语之间的语义关系,构成一个彼此相互联系的网络,以达到理解自然语言句子的语义关系。二、中文分词构建共现语义网络首先要进行分词,通常可以使用Jieba和Snownlp做中文分词。笔者使用的数据是自己在招聘网站采集的岗位招聘要求信息数据,使用Jieba分词后保存到源数据,并使用pandas库把整个文件保存为csv文件,方便后续使用。原创 2021-11-10 10:21:30 · 17578 阅读 · 28 评论 -
使用KL散度计算LDA主题模型的主题方差
一、需求分析我们知道LDA主题模型的最优主题数可以使用困惑度来衡量,但使用困惑度确定最优主题已经被论文证明其实是不适用的。那有没有一种可行的方法计算出最优主题数呢?答案是肯定的,很多论文都会使用主题方差确定最优主题数,本文就是基于主题方差得出最优的主题数。二、主题方差1、KL散度相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence),是一种度量两个概率分布(probability distribution)间原创 2021-11-09 19:02:26 · 2001 阅读 · 7 评论