第一节:Jieba分词

在我们的日常工作与学习当中,最常用的两种语言就是汉语和英语了。在做文本分析的时候,第一步都是分词。在英语文章中,每个词都是天然的用空格分开的,所以我们就不讨论英语的分词了。在汉语分词中,我们最常用的就是jieba分词分词库了。jieba是一款开源的分词工具包,广泛应用于文本分析,词云绘制,关键词提取,自然语言处理等领域。

1.安装

pip install jieba

2.Jieba常用函数

  • 精确模式:精确的切分句子中的每个词语,没有冗余词。
  • 全模式:把所有可能的词语全部切分开,切分得到的词语是有冗余的。
  • 搜索引擎模式:在全模式的基础上,对长的词语再次切分,得到适合搜索引擎的最简单明了的词语。
#导入jieba分词工具包
import jieba

#随便创建一句话
words = '哈工大材料科学与工程学院焊接技术与工程专业的学生'

#精确模式切分
jieba.lcut(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值