jieba分词怎么操作_自然语言处理课程(二):Jieba分词的原理及实例操作

本文介绍了jieba分词包的原理和在Python中的实际运用,包括精确模式、全模式和搜索引擎模式,并通过红楼梦文本进行词频统计的实例分享。
摘要由CSDN通过智能技术生成

上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论。接下来,我们将要了解一些具体的、可操作的技术方法。

作为小说爱好者的你,是否有设想过通过一些计算机工具对小说做一些有趣的事情呢?阅读本文,你可以了解到如何运用现在最流行、最容易运用的jieba分词包,统计一个段落的词频,然后来通过词频推断小说的关键情节、核心人物。

作为文本分析和情感分析最基础的工作就是对文本进行分词,后期的文本挖掘、情感分析、规律探寻等工作很大程度上取决于分词的精确度。在当代的中文自然语言分析领域,Jieba分词包因为它的简易性和高效性被广大工作者广泛的运用。

值得一提的是,小编在网上做了调查,想对Jieba分词包的作者SunJunyi做一个简单的介绍,但无奈信息太少,也源于他本人很低调,没有过多的信息,有兴趣的朋友可以在链接https://github.com/fxsjy?tab=repositories通过邮件联系到他本人(小编没有尝试过)。

本篇文章会在Jieba分词包的运用原理以及实际运用进行介绍,并会分享我们在文本分析用到的实例。

原理介绍

在介绍Jieba分词原理之前,我们先用最直接的思维角度来设想如果我们自己进行分词,我们会如何去分词。

举个简单的例子,我们有一句话是“我现在去公司开会“,人类最直观的想法就是从左向右扫描此句,然后分词成“我/现在/去/公司/开会”。但作为计算机机器,当人工智能还停留在我们的幻想时,我们能做的、可能就是给计算机一本词典,让它根据词典来分词。这样的方法可以应用于大部分句子,但当遇到一词多义、或者有双重理解词语组合的情况时,分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值