某天在磕N1听力材料的时候,突然想到:“如果把听力里的高频词都背熟,那我的日语听力岂不是畅通无阻?”(我可真是个小机灵鬼)
实现思路就是“分词+统计”,先写一个日语词频统计小程序再说。
于是,说搞就搞。
日语分词包
调研(google)了一下,发现日语也有类似jieba这样的分词包,用的比较多的是Mecab,类似的还有ChaSen、JUMAN这些,可以看下这几个的对比。对于简单的分词统计来说,Mecab够用了。
对日语分词包感兴趣的朋友可以参考这个:日文分词器 Mecab 文档 | 我爱自然语言处理www.52nlp.cn
安装Mecab
和python其他包的安装类似,一行代码解决问题
pip install mecab-python3
小试牛刀
装完之后,在python里导入Mecab,顺便看看是否成功安装
import MeCab
如果没问题的话,那就可以进入正题了,先找一句话来练练手。天気がいいから、散歩しましょう
text = "天気がいいから、散歩しましょう"
mecab_tagger = MeCab.Tagger("-Owakati")
mecab_tagger.parse(text)
输出的结果是:
Out[1]:'天気 が いい から 、 散歩 し ましょ う \n'
可以看到,每个词中间都被一个空格隔开了,这个时候再稍加处理一下,