未明学院:技能帖 | 词云图前置--jieba分词

在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,以便更好地分析句子的特性,这个过程叫分词。

怎么分词?利用jieba中文分词组件。

三种jieba切词模式介绍

jieba切词有三种模式的选择,分别为全模式,精准模式,搜索引擎模式

1.全模式:

把句子中所有的可以成词的词语都扫描处理,速度非常快,但是不能解决歧义。

2.精准模式:

试图将句子最精确地切开,适合文本分析。

3.搜索引擎模式:

在精确模式的基础上,对长词再次切分,提高召回率,适合用于引擎分词.

具体流程

Step01

1.首先导入jieba库。

2.添加词典。

比如我们不希望在精准模式下,中国科学院计算所不被切开,我们可以将其添加进词典。

接下来就可以运用上面知识点,对文章词语的词频进行提取(关键词)了。

Step02

1.首先读入我们的数据。

2.然后利用结巴进行切词。

3.删除标点符号

如果你看到很多的标点符号,别慌,他们是可以被删除的。

 Step03

1.删除标点符号后,就可以对词语进行词频的统计了。

2.过滤日常用语

你会发现有很多,类似于“之,与,中,有”这类高频出现,扰乱视线的日常用语,所以我们选择使用停用词将他们过滤。

这样我们就把停用词过滤了,就能提取文章中词频比较高的一些词并对其进行分析,或者绘制词云图了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值