统计中分分词(CRF)

下面利用条件随机场的统计分词算法。条件随机场是一种判别式模型,是指在给定输入节点条件下计算输出节点的条件概率,其核心思想是利用无向图理论使序列标注的结果达到在整个序列上全局最优

第一步:工具包准备

利用CRF++工具包,下载编译安装。同时,在其python目录下执行python包安装。

第二步:语料准备

还是利用backoff2005的熟语料进行加工,成为CRF++需要的语料格式,如:

    
“ S
人 B
们 E
常 S
说 S
生 B
活 E
是 S                                      
一 S
部 S
"
    

这里加工北京大学提供的训练语料(icwb2-data\training\pku_training.utf8)

第三步:执行CRF训练

    
crf_learn -f 3 -c 4.0 example/seg/template ../python_script/pku_traing.crf.utf8 ../python_script/crf_model
.....
iter=537 terr=0.00288 serr=0.10796 act=2159868 obj=32091.56690 diff=0.00015
iter=538 terr=0.00289 serr=0.10785 act=2159868 obj=32093.34783 diff=0.00006
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值