日语python怎么说_python+Mecab,一次性学会日语分词

本文介绍了如何使用Python的Mecab库进行日语分词,包括简单的分词、词性区分和变形词处理,并给出了N考真题文本的分词统计实例。
摘要由CSDN通过智能技术生成

某天在磕N1听力材料的时候,突然想到:“如果把听力里的高频词都背熟,那我的日语听力岂不是畅通无阻?”(我可真是个小机灵鬼)

实现思路就是“分词+统计”,先写一个日语词频统计小程序再说。

于是,说搞就搞。

日语分词包

调研(google)了一下,发现日语也有类似jieba这样的分词包,用的比较多的是Mecab,类似的还有ChaSen、JUMAN这些,可以看下这几个的对比。对于简单的分词统计来说,Mecab够用了。

对日语分词包感兴趣的朋友可以参考这个:日文分词器 Mecab 文档 | 我爱自然语言处理​www.52nlp.cn

安装Mecab

和python其他包的安装类似,一行代码解决问题

pip install mecab-python3

小试牛刀

装完之后,在python里导入Mecab,顺便看看是否成功安装

import MeCab

如果没问题的话,那就可以进入正题了,先找一句话来练练手。天気がいいから、散歩しましょう

text = "天気がいいから、散歩しましょう"

mecab_tagger = MeCab.Tagger("-Owakati")

mecab_tagger.parse(text)

输出的结果是:

Out[1]:'天気 が いい から 、 散歩 し ましょ う \n'

可以看到,每个词中间都被一个空格隔开了,这个时候再稍加处理一下,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值