词法分析-利用Jieba实现高频词提取(Python)

Jieba是一个中文分词工具,可以进行关键词提取、词性标注等,并在python等中提供了接口。

任务:利用Jieba实现高频词的提取。

首先在中找到并安装jieba(已安装好)

然后直接使用即可。

Jieba有很多种模式(cut\cut_for_search\lcut\lcut_for_search),本次使用后两种(全模式和搜索引擎模式)。

 

首先利用open函数打开某txt文件,然后利用read把内容存储在某变量中(文件炒鸡大的时候read可能会无法使用)

然后调用jieba.lcut(或lcut_for_search),会范围一个炒鸡长的列表,里边是对内容进行分词的结果,然后统计词频(只统计两个字以上)并放在字典中,最后使用sorted等函数进行排序即可。

Jiaba.py:(以上学期某课的《红楼梦》为例)


import jieba
file=open('redmansiondream.txt',encoding="ansi")
file_context=file.read()
words1=jieba.lcut(file_context)#全模式
words2=jieba.lcut_for_search(file_context)#搜索引擎模式

#统计词频

data1={}
for chara in words1:
    if len(chara)<2:
        continue
    if chara in data1:
        data1[chara]+=1
    else:
        data1[chara]=1
        
data1=sorted(data1.items(),key = lambda x:x[1],reverse = True) #排序


data2={}
for chara in words2:
    if len(chara)<2:
        continue
    if chara in data2:
        data2[chara]+=1
    else:
        data2[chara]=1
        
data2=sorted(data2.items(),key = lambda x:x[1],reverse = True) #排序

最后统计如下:

(左为全模式,右为搜索引擎模式)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值