分词器在北京大学的语料上f-score达到93.9%了

最新推荐文章于 2024-07-21 13:38:21 发布

phyeas

最新推荐文章于 2024-07-21 13:38:21 发布

阅读量174

点赞数

分类专栏：日常杂记文章标签： F# 算法 C C++ C#

日常杂记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种，分类从原来的4种加到了6种，170多W的事件，训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易，呵呵。越到后面越觉得再提升就很困难了，基本上特征都提取完了……目前没有想到新的特征。

在这里也简要说下我的特征系列（当前字用C表示，C-1既是前一个字）：C pC-1 nC+1 pcC-1C cnCC+1 pnC-1C+1 ppC-2C-1 nnC+1C+2 (num | pnum | nnum) (symbol | nSymbol)

再加上读取11个字位内的最佳概率链（多了需要太多的运算空间和时间，没增加1则在原来的基础上*2,11个字位圆满算下来是2的11次方次运算。）

我会不断改进这个分词器的，过一段时间可能放出代码来给有兴趣的朋友下载，有什么写得不对的地方大家尽量指教。先谢谢了。最大熵的核心算法是从网上下的开源项目。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分词器在北京大学的语料上f-score达到93.9%了

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种，分类从原来的4种加到了6种，170多W的事件，训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易，呵呵。越到后面越觉得再提升就很困难了，基本上特征都提取完了……目前没有想到新的特征。在这里也简要说下我的特征系列（当前字用C表示，C-1既是前一个字）：C pC...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。