用MeCab打造自己的分词器(一)

希望能打造满足项目需要的分词器,然后利用这个分词器,来对收集的垂直领域语料进行分词。在此基础上训练词向量,供后续的功能使用。理想的需求是已有大量的语料可供训练或者说转换不那么复杂,同时支持词典添加和增量模型训练两种方式。

通过“我爱自然语言处理”网站上推荐的MeCab,比较符合需要。准备根据站长的博文一步步操作,利用MeCab构建分词器。

他在这篇博文提到的坑,前面几个都没遇到编译都很顺利,可能我的系统是ubantu18.04的原因。但是在安装mecab-python版本时遇到问题。提示没有Python.h,而且我的Python版本是3.X,在运行setup脚本时启用的是2.7。一步一步定位原因,顺便看了下脚本的执行顺序。

Python版本的问题,出在/usr/bin/python这个软链接上,我安装的是Anaconda环境,并把Anaconda的路径写入Path中,但是在/usr/bin下的Python软链接依旧指向了2.7的版本,所以在shell查看Python版本是3.X,但是运行脚本时还是2.7,修改软链接指向新的目标即可。

4月  16  2018 python -> python2.7* 

ln -snf /usr/bin/python3.6 /usr/bin/python
/usr/bin$ ll python
lrwxrwxrwx 1 root root 9 11月 27 09:39 python -> python3.6*

继续执行安装MeCab-Python:

/mecab-python-0.996$ sudo python setup.py build
Traceback (most recent call last):
  File "setup.py", line 3, in <module>
    from distutils.core import setup,Extension,os
ModuleNotFoundError: No module named 'distutils.core'

报错说是没有安装distutiles。可能是Anaconda环境里没有这个模块。搜索寻找解决方法:

/mecab-python-0.996$ sudo apt-get install python3-distutils

Done!

接着运行build命令

又报错,现在没有Python.h文件,无法编译CXX文件。通过查找命令: 

sudo find / -name Python.h

在Anaconda的Python安装目录下有include/Python.h头文件。查看执行输出的log,显示在gcc编译CXX文件生产目标文件时,默认指定的头文件位置是/usr/local/include/python3.6m,而find搜索到的Python.h文件在anaconda3/include下。通过-I指定头文件位置:

sudo python setup build_ext -I../anaconda/inclde

编译通过。在build目录下生成_MeCab.cpython-36m-x86_64-linux-gnu.so.so文件、并复制了一份MeCab.py文件。运行安装命令

sudo python setup.py install

打开Python交互程序, 执行import MeCab模块,报错:

Traceback (most recent call last):
  File "/home/yaspeed/Downloads/mecab-python-0.996/MeCab.py", line 16, in swig_import_helper
    fp, pathname, description = imp.find_module('_MeCab', [dirname(__file__)])
  File "/home/yaspeed/anaconda3/lib/python3.6/imp.py", line 296, in find_module
    raise ImportError(_ERR_MSG.format(name), name=name)
ImportError: No module named '_MeCab'

没有模块名字,还是位置的问题。setup.py install命令把MeCab相关模块安装到默认的/usr/local/lib/Python3.6/site-package下,而不是anaconda下面。解决方法是指定安装位置:

sudo python setup.py install --prefix=~/anaconda3

执行完,在anaconda3//lib/python3.6/site-packages目录下有如下文件:

_MeCab.cpython-36m-x86_64-linux-gnu.so

__pycache__/MeCab.cpython-36.pyc

MeCab.py
打开Python交互程序,import MeCab 正常导入。

到这里安装成功。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值