日语分词工具mecab安装配置以及使用

最新推荐文章于 2024-09-02 07:45:59 发布

程序猿-博客

最新推荐文章于 2024-09-02 07:45:59 发布

阅读量4k

点赞数 3

分类专栏：机器学习自然语言处理文章标签： MeCab 日语分词分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hengwen1991/article/details/87774361

版权

自然语言处理同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

MeCab介绍

mecab 是基于CRF 的一个日文分词系统，代码使用 c++ 实现，基本上内嵌了 CRF++ 的代码，同时提供了多种脚本语言调用的接口(python, perl， ruby 等).整个系统的架构采用通用泛化的设计，用户可以通过配置文件定制CRF训练中需要使用的特征模板。甚至，如果你有中文的分词语料作为训练语料，可以在该架构下按照其配置文件的规范定制一个中文的分词系统。

日文NLP 界有几个有名的开源分词系统， Juman, Chasen, Mecab. Juman 和 Chasen 都是比较老的系统了， Mecab 系统比较新，在很多方面都优于 Juman 和 Chasen, mecab 目前开发也比较活跃。 Mecab 虽然使用 CRF 实现，但是解析效率上确相当高效，据作者的介绍， Mecab 比基于 HMM 的 Chasen 的解析速度要快。笔者在一台 Linux 机器上粗略测试过其速度，将近达到 2MB/s，完全达到了工程应用的需求，该系统目前在日文 NLP 界被广泛使用。

安装MeCab（python 3）

安装包下载
https://download.csdn.net/download/hengwen1991/10958377
使用系统
Linux

修改setup.py文件：

vi setup.py

将以下代码进行修改：

def cmd2(str):

return string.split (cmd1(str))

变更后的文本：

def cmd2(str):

return cmd1(str).split()

python setup.py build

sudo python setup.py install

安装MeCab（python 2.7）

sudo apt-get install mecab libmecab-dev mecab-ipadic

sudo apt-get install mecab-ipadic-utf8

sudo apt-get install python-mecab

程序猿-博客

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。