Jieba库的学习

首先是英文的词频统计,不需要jieba中文分词库,只需要注意大小写转换,特殊标点符号删除,而后利用字典!

split函数,字典的get函数添加映射数据

对于《三国演义》进行中文分词统计,得到人物出场次数最多的数据

代码   。。。watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARmFpdGhfVmVuaWNl,size_20,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARmFpdGhfVmVuaWNl,size_20,color_FFFFFF,t_70,g_se,x_16

笔记,Jieba库  需要使用open打开txt文件,并读取其中的文本

jieba的lcut方法分词,(jieba的三种分词方式) 然后,

使用字典,映射  人名:出现次数  方式作为其中元素

使用for ...in...循环遍历整个txt文本加入字典,同样的循环遍历字典输出打印

元组不方便统计,需要改为list列表方式sort排序,其中有一个lamda函数,以键值(即出现次数)排序   然后打印输出

得到了不同的词频,但是包括了很

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值