日语python怎么说_python+Mecab,一次性学会日语分词

最新推荐文章于 2024-06-17 09:36:03 发布

weixin_39606003

最新推荐文章于 2024-06-17 09:36:03 发布

阅读量998

点赞数 1

文章标签：日语python怎么说

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39606003/article/details/111417844

版权

本文介绍了如何使用Python的Mecab库进行日语分词，包括简单的分词、词性区分和变形词处理，并给出了N考真题文本的分词统计实例。

摘要由CSDN通过智能技术生成

某天在磕N1听力材料的时候，突然想到：“如果把听力里的高频词都背熟，那我的日语听力岂不是畅通无阻？”(我可真是个小机灵鬼)

实现思路就是“分词+统计”，先写一个日语词频统计小程序再说。

于是，说搞就搞。

日语分词包

调研(google)了一下，发现日语也有类似jieba这样的分词包，用的比较多的是Mecab，类似的还有ChaSen、JUMAN这些，可以看下这几个的对比。对于简单的分词统计来说，Mecab够用了。

对日语分词包感兴趣的朋友可以参考这个：日文分词器 Mecab 文档 | 我爱自然语言处理www.52nlp.cn

安装Mecab

和python其他包的安装类似，一行代码解决问题

pip install mecab-python3

小试牛刀

装完之后，在python里导入Mecab，顺便看看是否成功安装

import MeCab

如果没问题的话，那就可以进入正题了，先找一句话来练练手。天気がいいから、散歩しましょう

text = "天気がいいから、散歩しましょう"

mecab_tagger = MeCab.Tagger("-Owakati")

mecab_tagger.parse(text)

输出的结果是：

Out[1]:'天気がいいから、散歩しましょう \n'

可以看到，每个词中间都被一个空格隔开了，这个时候再稍加处理一下，

最低0.47元/天解锁文章

weixin_39606003

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。