为什么研究?

    十年前中文分词的工程水平就已经很高,十年后中文分词的水平似乎并未明显提高,这十年中学术界发了多少关于分词研究的papers,实在难以统计。

    十年前流行使用hmm模型分词,5年前流行使用最大熵模型分词,2年前流行crf模型分词,1年前流行最大间隔距离马尔科夫模型。

    每一种模型都号称提高了分词准确率,最大熵比hmm模型提高0.5个百分点,crf模型又比最大熵模型提高了0.5个百分点,最大间隔马尔科夫模型又比crf模型的准确率搞了0.2个百分点,于是,理论界额手相庆、大声叫好,说是中文分词研究进入了新阶段,取得了重大突破,在国际上又如何如何。

    可惜分词训练速度越来越慢,hmm模型需要2个小时,最大熵模型需要20个小时,crf模型需要200个小时,最大间隔马尔科夫模型可能需要的是时间更长。

    那么多人,那么多钱,那么多物力,都消耗在这么个事情上,轮子重复发明,事情重复进行,结论重复验证,职称越来越高,教授越来越多,博导越来越牛,思维越来越僵化,做出来的分词工具越来越烂。

    中文分词领域就像个妓院,想来就来,想走就走,持之以恒者少,沽名钓誉者众。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值