我猜
你大概是困惑于这种费力又看似无用的探索行为,觉得毫无价值。
我说,
深度分词的结果未必就比jieba好,但这是一个研究方向。
中文分词一直面临这3个大难题:
(1)歧义:同样的词有不同切法,语义差别巨大,eg.'研究生命科学' 和 '研究生命令本科生'
(2)OOV:在训练语料库中未出现的名词,难以切分正确
(3)不一致:上下文语境不同,则切词的方式会发生变化,比如 '各国有企业相继倒闭',有两种正确切法 各国 / 有 / 企业 / 相继 / 倒闭 和 各 /国有企业 / 相继 / 倒闭,需要结合语境信息。
jieba解决了这3大难题了么?
显然没有。
深度模型有希望解决么?
好像更能耐一点。
所以有人开始尝试了。
jieba已经是工程化之后的产品,好比是一辆小面的,而这些人还在从轮子开始造车,你说,有小面的做为什么还要造车,大街上一招手就能拦一辆,殊不知也许人家能造一台保时捷出来亮瞎你的眼。
最后,如果你平日用jieba就够了,那你大可以等等,总会有大神做好了深度模型再开源给你用。