Atitit snownlp nlp 常见功能目录 1.1. 主要功能： 1 1.2. 官网信息： 2 1.3. # 自动摘要 vs 关键词提取 2 1.4. Tf idf算法 2 1.5. p

attilax

于 2019-05-24 15:53:36 发布

阅读量440

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/attilax/article/details/90517821

版权

Atitit snownlp是一个用于自然语言处理的库，包括中文分词、词性标注、情感分析等功能。通过TextRank算法实现关键词提取和文本摘要，支持文本相似度计算。此外，还提供了TF-IDF算法和繁体转简体的转换。该库适用于文本分析和处理任务。

摘要由CSDN通过智能技术生成

Atitit snownlp nlp 常见功能

目录

1.1. 主要功能： 1

1.2. 官网信息： 2

1.3. # 自动摘要 vs 关键词提取 2

1.4. Tf idf算法 2

1.5. print('文本相似：') 3

1.6. 中文分词： 3

1.7. 词性标注： 4

1.8. 情感分析： 4

1.9. 转成拼音： 4

1.10. 繁体转简体： 4

1.11. 关于训练（分词，词性标注，情感分析）： 4

1. 主要功能：

中文分词（Character-Based Generative Model）
词性标注（TnT 3-gram 隐马）
情感分析（现在训练数据主要是买卖东西时的评价，所以对其他的一些可能效果不是很好，待解决）
文本分类（Naive Bayes）
转换成拼音（Trie树实现的最大匹配）
繁体转简体（Trie树实现的最大匹配）
提取文本关键词（TextRank算法）
提取文本摘要（TextRank算法）
tf，idf
Tokenization（分割成句子）
文本相似（BM25）
支持python3（感谢erning）
1. 官网信息：

1. # 自动摘要 vs 关键词提取

text = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。'
s = SnowNLP(text)
print(s.keywords(10))
print(s.summary(3))
## SnowNLP.summary

1. Tf idf算法

s = SnowNLP([[u'这篇', u'文章'],

[u'那篇', u'论文'],

[u'这个']])print(s.tf) #TF意思是词频(Term Frequency)print(s.idf) #IDF意思是逆文本频率指数(Inverse Document Frequency)

1. print('文本相似：')

print(s.sim(['文章']))# [0.3756070762985226, 0, 0]

print(s.sim(['文章','真']))# [0.7731414846187967, 0, 0

词频：
[{'这篇': 1, '文章': 1, '真': 1, '不错': 1}, {'那篇': 1, '论文': 1}, {'这个': 1}]
逆向文件频率：
{'这篇': 0.5108256237659907, '文章': 0.5108256237659907, '真': 0.5108256237659907, '不错': 0.5108256237659907, '那篇': 0.5108256237659907, '论文': 0.5108256237659907, '这个': 0.5108256237659907}
文本相似：
[0.38657074230939836, 0, 0]
---------------------

1. 中文分词：

['这个', '东西', '真心', '很', '赞']

1. 词性标注：

<zip object at 0x12638b388>

1. 情感分析：

0.9769551298267365

1. 转成拼音：

['zhe', 'ge', 'dong', 'xi', 'zhen', 'xin', 'hen', 'zan']

1. 繁体转简体：

「繁体字」「繁体中文」的叫法在台湾亦很常见。

提取文本关键词：

---------------------

1. 关于训练（分词，词性标注，情感分析）：

from snownlp import seg

seg.train('data.txt')

seg.save('seg.marshal')

# from snownlp import tag

# tag.train('199801.txt')

# tag.save('tag.marshal')

# from snownlp import sentiment

# sentiment.train('neg.txt', 'pos.txt')

---------------------

(9+条消息)NLP snownlp 实际用例 - _yuki_ - CSDN博客.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。