Jieba是一个中文分词工具,可以进行关键词提取、词性标注等,并在python等中提供了接口。
任务:利用Jieba实现高频词的提取。
首先在中找到并安装jieba(已安装好)
然后直接使用即可。
Jieba有很多种模式(cut\cut_for_search\lcut\lcut_for_search),本次使用后两种(全模式和搜索引擎模式)。
首先利用open函数打开某txt文件,然后利用read把内容存储在某变量中(文件炒鸡大的时候read可能会无法使用)
然后调用jieba.lcut(或lcut_for_search),会范围一个炒鸡长的列表,里边是对内容进行分词的结果,然后统计词频(只统计两个字以上)并放在字典中,最后使用sorted等函数进行排序即可。
Jiaba.py:(以上学期某课的《红楼梦》为例)
import jieba
file=open('redmansiondream.txt',encoding="ansi")
file_context=file.read()
words1=jieba.lcut(file_context)#全模式
words2=jieba.lcut_for_search(file_context)#搜索引擎模式
#统计词频
data1={}
for chara in words1:
if len(chara)<2:
continue
if chara in data1:
data1[chara]+=1
else:
data1[chara]=1
data1=sorted(data1.items(),key = lambda x:x[1],reverse = True) #排序
data2={}
for chara in words2:
if len(chara)<2:
continue
if chara in data2:
data2[chara]+=1
else:
data2[chara]=1
data2=sorted(data2.items(),key = lambda x:x[1],reverse = True) #排序
最后统计如下:
(左为全模式,右为搜索引擎模式)