Jieba分词统计词频及自定义分词词典

Jieba分词统计词频及自定义分词词典

1、统计词频

统计词频的测试文本如下:

布鲁克林篮网队(Brooklyn Nets),是一支属于美国的纽约州纽约市布鲁克林区为基地的男子职业篮球队,属于NBA,于1967年组队并在1976年加入NBA联盟,是美国男篮职业联赛东部联盟大西洋赛区的一部分。
布鲁克林篮网队原为新泽西篮网队,球队在1976年加入NBA联盟后,未夺得总冠军,但分别在2001-02和2002-03赛季获得东部联盟的头名。在2004年球队被转让给布鲁斯·拉特纳,2012-13赛季,篮网队正式由新泽
西迁往纽约市的布鲁克林区,继2006-07年赛季后,闯入NBA季后赛。2019年随着夏季转会期凯里·欧文、凯文·杜兰特等明星球员的加盟,以及交易过的詹姆斯·哈登,布鲁克林篮网队一跃成为东部极具竞争力的一支球队。
2021年8月4日消息,帕蒂·米尔斯与布鲁克林篮网队完成签约。北京时间9月11日,篮网队官方宣布,球队正式签下自由球员前锋保罗-米尔萨普

编写代码

import jieba
from collections import Counter

content = open(r'test.txt', encoding='utf-8').read()

con_words = [x for x in jieba.cut(content) if len(x) >= 2]

result = Counter(content).most_common(10)

print(result)

运行代码查看统计结果

在这里插入图片描述

2、自定义分词词典

2.1 创建词典

首先我们创建一个user_dict.txt文本文件,在文件中添加我们需要的词典,如下所示:

欧阳建国 5
创新办 1
欢聚时代 5
云计算 5

2.2 编写代码

接着我们编写代码进行词典的测试,测试的文本如下:

欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家

首先我们不导入自定义的分词词典,看看分词结果如何:

代码如下:

import jieba

txt = '欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'

print(','.join(jieba.cut(txt)))

分词结果

欧阳,建国,是,创新,办,主任,也,是,欢聚,时代,公司,云,计算,方面,的,专家

接着我们导入分词词典,查看分词结果:

代码

import jieba

txt = '欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'

# 使用用户字典的分词
jieba.load_userdict('user_dict.txt')

print(','.join(jieba.cut(txt)))

分词结果

欧阳建国,是,创新办,主任,也,是,欢聚时代,公司,云计算,方面,的,专家

很明显的可以看出,加入自定义的分词词典之后,所得到的分词结果更符合实际情况。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叁拾舞

你的鼓励将是我最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值