jieba基本使用过程

0 引言

今天起正式开始对于文本挖掘相关知识的学习,之前都是东学一点,西学一点,没有一个体系,希望接下来可以好好把这方面的知识梳理一下,方便学以致用。今天梳理知识点就是jieba分词,采用逐步梳理的方式进行

python环境使用的是miniconda里面的jupyter notebook

1 jieba库安装

关于jieba这个库的介绍,就不多说了,主要就是和分词联系在一块,所以叫多了就把结巴分词当成一个词语了,首先就是使用前安装,为了安装方便,可以直接在jupyter notebook里面进行,安装代码:!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba,安装完成示意图

在这里插入图片描述

2 jieba库文件查看

安装好之后,认识一下这个jieba库,首先导入jieba,查看一下这个库的文件位置
在这里插入图片描述
主要是为了查看jieba库中的dict.txt文件夹,这个就是分词的依据,关于文件中数据的介绍,第一个就是词汇,第二个代表词频,第三个是词性,每一行都是由三个数据组成
在这里插入图片描述

3 基本使用

比如最常用的一个示例,就是对“我喜欢上海东方明珠”进行分词,分词类型有三种,如下

  • 全模式cut_all = True
  • 精准模式cut_all = False
  • 搜索引擎模式lcut_for_search

关于cut()/lcut()方法,直接先拿示例操作一下,看看结果输出是什么,代码如下。其中cut之后是一个生成器对象,如果要使用的话需要进行遍历迭代,比如这里直接让生成器中的数据全部输出至列表中;而lcut就是直接将分词后的内容以列表的形式返回。为了展示方便,后续都是使用lcut进行代码操作
在这里插入图片描述
看一下三种模式下的分词结果,搜索引擎模式是在精准模式上的细分
在这里插入图片描述
需要留意一下到底是在使用cut()方法还是在lcut()方法,两者只有一个字符之差
在这里插入图片描述

4 词性标注

在上面查看jieba文件夹时,除了很重要的dict.txt文件外还有一些文件夹,这些文件夹都是有着对应的功能,比如要进行词性标注,就使用到了posseg文件夹,使用方式如下
在这里插入图片描述
其中第一个是词汇,第二个就是词性,再进行一个简单的示例,可以发现存在着不同的词性
在这里插入图片描述
不必要全部记作所有的词性及其对应的标志字符,但是常用的一些词性标志及其对应的字符还是要牢记于心的,整理如下
在这里插入图片描述

5 自定义词典和加载自定义词语

上面列举的示例,貌似都没有问题,符合正常的输出,那么实际情况下,比如对于自己学校来说,对“‘上海海事大学是一个以航运、物流、海洋为特色的安全管理高校’”句子进行分词,可以发现对于“上海海事大学”和“安全管理”两个词语没有正确的切分开
在这里插入图片描述
是不是使用精准模式就不保留长长的一串的词汇呢?那试一试基于精准模式下的搜索模式,输出如何。结果表明,这两种方式都没有办法满足我的要求,测试全模式下的切分也没有办法满足,这时候就出现问题了,需要对现在的这种状况进行解决
在这里插入图片描述
解决问题的方式就回归到最初提到的那个dict.txt文件上了,由于jieba是按照这个词库进行分词的,如果默认的分词不能满足自己的需要,就需要我们手动进行指定相应的词库,比如在dict.txt文件夹下创建一个dict1.txt文件,用来放置我们要加载的词语,如下
在这里插入图片描述
然后将词库加载到程序中,代码如下:jieba.load_userdict(文件路径+文件名),执行结果后可以发现,定义的第一个词汇可以正常的进行分词,但是第二个词汇安全管理还是被当做了两个词
在这里插入图片描述
由于分词是按照词频进行的,这时候就需要改一下自己加入的词语的词频,更改的依据就是查看对应的词汇的频率,比如安全、管理这两个词汇的频率,都是属于高频的词汇
在这里插入图片描述
在这里插入图片描述
这里尝试把安全管理词汇的重要性提高,比如词频改为100试一下,结果可以完美输出了,所以针对于自己专业的词语,指定相应的字典进行分词。

★★★注意:这种方式操作不会影响原来的分词依据,也就是说这次程序加载的自定义字典只会在这次运行中有效,不会影响下次操作,除非修改的是自带的dict.txt文件
在这里插入图片描述
如果是加载的词语量比较少的情况下,可以不创建文件,直接通过代码来操作。代码指令:jieba.add_word(一个词汇) Add a word to dictionary. 如果要添加多个词可以遍历循环一下。比如下面对于云计算操作,这里的添加和上面的一样都是只对运行的本次程序有效,不影响下次执行
在这里插入图片描述
或者使用jieba.suggest_freq(词汇,tune = True),注意里面的tune参数
在这里插入图片描述

6 关键词提取与位置查找

关键词提取需要用到jieba模块下面的analyse文件夹,步骤如下,先指定好加载词,然后使用jieba.analyse.extract_tags(demo,5)进行关键词提取,如果不指定参数会默认提取前20个,也可以人工指定
在这里插入图片描述
对关键词的位置进行查找,可以使用jieba.tokenize(),里面有个mode参数,如果指定为search就是为搜索引擎模式,默认的就是精准匹配的方式
在这里插入图片描述

Cocos Creator是一个功能强大的游戏开发引擎,它允许开发者创建各种类型的游戏,包括街霸游戏。但是,Cocos Creator本身并不提供街霸游戏的源码,开发者需要自己设计和编写游戏的逻辑、界面以及各种游戏元素。 要创建一个街霸游戏,首先需要进行角色的设计和动画制作。可以使用Cocos Creator内置的动画编辑器来创建和编辑角色的动画效果。然后,开发者需要设计游戏场景,包括背景、道路、建筑等等,可以使用Cocos Creator提供的场景编辑器进行创建和布置。 在街霸游戏中,角色之间的战斗是重要的内容。为了实现战斗机制,需要编写适当的代码来实现攻击、防御、技能等动作的触发和效果。开发者可以使用Cocos Creator的脚本编辑器来编写游戏逻辑脚本,实现战斗机制,并确保游戏的平衡性和可玩性。 此外,街霸游戏还可能包括多人对战模式,可以使用Cocos Creator的网络模块来实现多人对战功能。开发者还可以使用音效编辑工具来添加游戏音效,以提升游戏的体验和乐趣。 总体来说,创建一款街霸游戏需要进行多个方面的设计和开发工作,包括角色设计、动画制作、场景布置、战斗机制实现、网络功能等等。Cocos Creator作为游戏开发引擎,为开发者提供了一系列强大的功能和工具,可以帮助开发者创建出高质量、富有创意的街霸游戏。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lys_828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值