python库之SnowNLP(自然语言处理)

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

# s as SnowNLP(text)
1) s.words        词语
2) s.sentences   句子/分句
3) s.sentiments 情感偏向,0-1之间的浮点数,越靠近1越积极(正面)
4) s.pinyin         转为拼音
5) s.han             转为简体
6) s.keywords(n) 提取关键字,n默认为5
7) s.summary(n)  提取摘要,n默认为5
8) s.tf                   计算term frequency词频
9) s.idf                 计算inverse document frequency逆向文件频率
10) s.sim(doc,index)          计算相似度

1、分词

2、词性标注

3、断句

4、情绪判断

返回值为正面情绪的概率,

越接近1表示正面情绪

越接近0表示负面情绪

 

5、拼音

 

6、繁体转简体

 

7、关键词抽取

 

8、概括总结文意

 

9、信息量衡量

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TF词频越大越重要,但是文中会的“的”,“你”等无意义词频很大,却信息量几乎为0,这种情况导致单纯看词频评价词语重要性是不准确的。因此加入了idf

IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t越重要

TF-IDF综合起来,才能准确的综合的评价一词对文本的重要性。

 

10、文本相似性

 

 

参考地址:https://www.jianshu.com/p/4692d1b5364d

 

 

 

  • 5
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值