对分词的一些看法,最近看到不少,不说不快

关于分词得研究由来已久,最近看到博客园里类似文章不断,于是想说说自己的看法。

    对于分词算法,首先我觉得是一个数学和文学的问题而非编程技术的问题,肯到很多同学不厌其烦的孜孜不倦的追求最完美的分词程序,其实我看大可不必,当然对于编程技术的完美追求是好的,不过应该是力气用错了地方。
    最先看到的是《 天书般的ICTCLAS分词系统代码(一) 》,在此不对zhenyulu兄的Post做任何评价,不过在看到很多人发布自己的分词代码,感觉很多同学在用一个庞大的工程来锻炼自己写链表的能力,实在觉得浪费资源。分词是一个算法问题,这个也许是只有汉语才存在的问题(英文其实不需要分词,因为每个单词用空格隔开了)对于算法问题是首先需要有了优秀的算法,才能出现优秀程序,而对于中文分词,很多同学都用程序的眼光去看待其实是不对的,打个比方,冒泡法排序,算法已经确定的情况下你的程序再优化也不能超过其理论上限,这个是数学理论所决定好了的,数学是所有科学的基础,如果向基础理论挑战无疑是唐吉坷德挑战风车一般。程序无非是用计算机语言去诠释数学的理论,而 面向搜索的中文分词设计 一文所发布的程序,个人认为精神可嘉,但行为不可取,因为从根本上的算法就不够先进,所以程序出来也不会很出色,如果大家想研究算法的话,还是先搞好算法本身,再去用程序证明会比较好一点。

   PS一下,说说自己对分词算法的一点看法,分次算法首先要对中文的文法有深入的研究才能提出最优化的算法,呵呵,所以想搞中文分词的话最好学好语文先:}。根据自己学习母语二十多年来的一点浅薄经验来看,中文整句的分词识别找到谓语是最重要的,因为谓语是构成文法的谓词结构主要组成部分,谓语一确定,主语宾语的词分出来就好识别的。

不是自己的主攻方向,不过说点自己的见解,如果有不同意见欢迎讨论
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值