词法分析-利用Jieba实现高频词提取（Python）

最新推荐文章于 2024-05-09 14:35:02 发布

Type真是太帅了

最新推荐文章于 2024-05-09 14:35:02 发布

阅读量1.3w

点赞数 8

分类专栏：编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36614557/article/details/85460480

版权

编程专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Jieba是一个中文分词工具，可以进行关键词提取、词性标注等，并在python等中提供了接口。

任务：利用Jieba实现高频词的提取。

首先在中找到并安装jieba（已安装好）

然后直接使用即可。

Jieba有很多种模式（cut\cut_for_search\lcut\lcut_for_search），本次使用后两种（全模式和搜索引擎模式）。

首先利用open函数打开某txt文件，然后利用read把内容存储在某变量中（文件炒鸡大的时候read可能会无法使用）

然后调用jieba.lcut（或lcut_for_search），会范围一个炒鸡长的列表，里边是对内容进行分词的结果，然后统计词频（只统计两个字以上）并放在字典中，最后使用sorted等函数进行排序即可。

Jiaba.py:(以上学期某课的《红楼梦》为例)


import jieba
file=open('redmansiondream.txt',encoding="ansi")
file_context=file.read()
words1=jieba.lcut(file_context)#全模式
words2=jieba.lcut_for_search(file_context)#搜索引擎模式

#统计词频

data1={}
for chara in words1:
    if len(chara)<2:
        continue
    if chara in data1:
        data1[chara]+=1
    else:
        data1[chara]=1
        
data1=sorted(data1.items(),key = lambda x:x[1],reverse = True) #排序


data2={}
for chara in words2:
    if len(chara)<2:
        continue
    if chara in data2:
        data2[chara]+=1
    else:
        data2[chara]=1
        
data2=sorted(data2.items(),key = lambda x:x[1],reverse = True) #排序

最后统计如下：

（左为全模式，右为搜索引擎模式）

Type真是太帅了

关注

8
点赞
踩
54

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Type真是太帅了 CSDN认证博客专家 CSDN认证企业博客

码龄8年

112: 原创

2万+: 周排名

215万+: 总排名

36万+: 访问

: 等级

3832: 积分

1956: 粉丝

432: 获赞

298: 评论

1915: 收藏

私信

关注

热门文章

分类专栏

最新评论

稀疏孔径光学系统的几种图像质量评价方法
.過劉: 赞
使用Apriori实现蔬菜价格涨跌关联分析
yaayyu: 请问大佬还保存着数据吗？能发一下吗？1992507454@qq.com
Matlab：图像轮廓的曲率计算
aini15928275502: 怎么取消细化轮廓
【代码复现|matlab】一种音频信号转换视觉颜色信息的方法及系统
皮皮卡秋秋: Notification.wav文件可以分享一下吗？我自己找了一个music.mp3文件显示数组大小不兼容
CODY Contest 2020 Basics - Rounding 全10题
一江明月一江秋y: 我发现用 num2str(x)方法不靠谱，一旦输入中有元素是超过4位小数的，MATLAB在运行过程中只会保留小数点后面的4位小数，导致得不到正确结果。思路大概是：先把数值转换为字符，然后定位找到小数点位置的索引，最后用字符串的长度减去小数点的索引，就得到小数点后面的位数，然后把这个值存入一个名为 L 的空列表中，最后 y = max(L) 就能得到输入数组中最长小数位的位数。 ----------------------------------但存在两个问题，一是这样做没有考虑小数末尾是否有0，有多少个0；二是 MATLAB自带的默认显示4位小数，导致输入数据中出现超过4位小数的数字，就会得出错误结果。还没想到怎么解决

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。