分词器在北京大学的语料上f-score达到93.9%了

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种,分类从原来的4种加到了6种,170多W的事件,训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易,呵呵。越到后面越觉得再提升就很困难了,基本上特征都提取完了……目前没有想到新的特征。

 

在这里也简要说下我的特征系列(当前字用C表示,C-1既是前一个字):C pC-1 nC+1 pcC-1C cnCC+1 pnC-1C+1 ppC-2C-1 nnC+1C+2 (num | pnum | nnum) (symbol | nSymbol)

 

再加上读取11个字位内的最佳概率链(多了需要太多的运算空间和时间,没增加1则在原来的基础上*2,11个字位圆满算下来是2的11次方次运算。)

 

我会不断改进这个分词器的,过一段时间可能放出代码来给有兴趣的朋友下载,有什么写得不对的地方大家尽量指教。先谢谢了。最大熵的核心算法是从网上下的开源项目。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值