分词库的安装

下载只需要一次即可
pip install jieba

分词的使用

精准模式
默认二级使用精准模式

import jieba
li = jieba.lcut(句子)
  • 1.
  • 2.

全模式

import jieba
li = jieba.lcut(句子,cut_all=True)
  • 1.
  • 2.

词频统计

li = ["a","b","a"]
d = {}
for w in li:
	# 查看这个w在字典中有几个
	old_num = d.get(w,0)
	# 现在的个数=之前个数+1
	new_num = old_num + 1
	# 更新字典
	d[w] = new_num
print(d)  # 统计好词频的字典
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.

词频字典的排序

# 假设d是有数据的字典
d = {}
# 先获得有序的键值对内容
items = d.items()  
# 把这个内容变成列表
items_list = list(items)  #[(,),(,)]
# 列表降序
items_list.sort(key=lambda o:o[1],reverse=True)
# 输出结果
print(items_list)
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.