python怎么安装jieba库-Python之jieba库的使用

jieba库,它是Python中一个重要的第三方中文分词函数库。

1.jieba的下载

由于jieba是一个第三方函数库,所以需要另外下载。电脑搜索“cmd”打开“命令提示符”,然后输入“pip install jieba”,稍微等等就下载成功。

(注:可能有些pip版本低,不能下载jieba库,需要手动升级pip至19.0.3的版本,在安装jieba库)

当你再次输入“pip install jieba”,显示如图,jieba库就下载成功。

1622500-20190406205636122-1022860539.png

2.jieba库的3种分词模式

精确模式:将句子最精确地切开,适合文本分析。

例:

1622500-20190406215835707-2138054594.png

全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能消除歧义。

例:(“国是”,黑人问号)

1622500-20190406220928330-999024190.png

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

例:(没什么不同,可能我还没发现它的用处)

1622500-20190406221608264-160382315.png

3.jieba应用

我选取了哈姆雷特(https://en.wikipedia.org/wiki/Hamlet#Act_I)的一小片段,txt形式存放在我的一个文件夹里,对它进行分词,输入代码:

defget_text():

txt= open("D://加油鸭~//hamlet.txt", "r",encoding='UTF-8').read()

txt=txt.lower()for ch in '!"#$%&()*+,-./:;<=>?@[\]^_"{|}~':

txt= txt.replace(ch, " ") #将文本中特殊字符替换为空格

returntxt

hamletTxt= get_text() #打开并读取文件

words = hamletTxt.split() #对字符串进行分割,获得单词列表

counts ={}for word inwords:if len(word) == 1:continue

else:

counts[word]= counts.get(word, 0) + 1 #分词计算

items=list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)for i in range(10):

word, count=items[i]print("{0:<10}{1:>5}".format(word,count))

得到结果,如图:

1622500-20190406222601110-1648681566.png

最后,我们还可以做词云图,这个呢我下次再给大家分享吧,再见~

  • 6
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值