![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
Chihk-Anchor
这个作者很懒,什么都没留下…
展开
-
python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室)四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客:python+gensim︱jieba分词、词袋doc...转载 2019-01-02 20:07:36 · 817 阅读 · 0 评论 -
TextRank 算法 关键词提取
参考论文:Rada Mihalcea《TextRank:Bring Order into texts》。TextRank将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系(例如共现),则这两个语法单元在图中就会有一条边相互连接,通过一定的迭代次数,最终不同的节点会有不同的权重,权重高的语法单元可以作为关键词。节点的权重不仅依赖于它的入度结点,还依赖于这些入度结点的权重,入度...原创 2019-02-16 00:26:45 · 3050 阅读 · 1 评论