Ubuntu下最大熵实现中文分词

本文在Ubuntu 16.4 LTS环境下,利用python和张乐博士的最大熵工具包,通过4-tag标注、训练、测试流程,实现中文分词。实验使用SIGHAN的backoff2005语料,最终达到83.6%的准确率和84.4%的召回率。后续可通过优化特征模板提升效果。
摘要由CSDN通过智能技术生成

                            最大熵模型实现中文分词

一、实验环境

1.1Ubuntu 16.4 LTS(Linux)

1.2python2

本实验完全在Linux环境(Ubuntu 64位)下使用python脚本和命令行实现

实验结果输入文本。

 

二、实验材料

2.1语料库

本实验采用SIGHAN提供的backoff2005语料进行训练和测试。

 

三、第三方工具包

张乐博士最大熵工具包

 

四、实验算法及过程

本实验采用最大熵算法实现中文分词

 

准备工作:

4.1下载安装最大熵工具包,可从github上下载源代码在Ubuntu。

4.2Linux 环境下进入maxent-master子目录按照

 $ ./configure

 $ make

 $ install

即可完成C++库的安装

4.3进入python子目录执行python setup.py install完成python库的安装

 

实验流程:

4.4将backoff2005里的训练数据转化为这个POS Tagger所需的训练数据格式,还是以微软亚洲研究院提供的中文分词语料为例,这次我们采用4-tag(B(Begin,词首), E(End,词尾), M(Middle,词中), S(Single,单字词))标记集,只处理utf-8编码文本。原始训练集./icwb2-data/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值