最大熵模型实现中文分词
一、实验环境
1.1Ubuntu 16.4 LTS(Linux)
1.2python2
本实验完全在Linux环境(Ubuntu 64位)下使用python脚本和命令行实现
实验结果输入文本。
二、实验材料
2.1语料库
本实验采用SIGHAN提供的backoff2005语料进行训练和测试。
三、第三方工具包
张乐博士最大熵工具包
四、实验算法及过程
本实验采用最大熵算法实现中文分词
准备工作:
4.1下载安装最大熵工具包,可从github上下载源代码在Ubuntu。
4.2Linux 环境下进入maxent-master子目录按照
$ ./configure
$ make
$ install
即可完成C++库的安装
4.3进入python子目录执行python setup.py install完成python库的安装
实验流程:
4.4将backoff2005里的训练数据转化为这个POS Tagger所需的训练数据格式,还是以微软亚洲研究院提供的中文分词语料为例,这次我们采用4-tag(B(Begin,词首), E(End,词尾), M(Middle,词中), S(Single,单字词))标记集,只处理utf-8编码文本。原始训练集./icwb2-data/