中文分词

        在中文自然语言中,词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记,因此,在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词,她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元,词性标准能标引出每个词的此次那个。

        中文分词就是将中文字符串切分成合理词语的过程,它是中文信息处理的一个基础环节。

        相关学者和研究人员在这个领域已经取得了一些客观成果,也有了一些通用分词算法。需要指出的是,分词算法想获得更好的切分精度,通常需要利用更多的语言资料,这样必定会耗费更多时间。影响分词准确率的一大因素是歧义,切分歧义包括组合型歧义和交集型歧义。组合型歧义就是对于字符串AB,可以切分为AB,又可以切分为A/B,如‘人才’存在组合切分歧义,‘你/是/个/人才’及‘只有/你/的/人/才/会/理/他’;交集型歧义就是ABC,可以切分为AB/C,又可以切分为A/BC。如‘杭州/市长/春药/店’与‘杭州市/长春/药店’。限于当前的处理技术,汉语切分要做到百分之百的正确率比较难的,而且由于语言本身的复杂性,汉语词汇也没有确定的界定标准,加之网络未登录词、自定义词、缩略词、自造词等广泛应用,导致了不同的信息处理技术对分词标准不同要求。例如,对于信息检索系统来说,可能更倾向于较小的分词单位,比如把‘并行计算机’切分成‘并行/计算机’,‘计算语言学’切分成‘计算/语言学’,使得无论用‘并行计算机’还是用‘计算机’‘计算语言学’或‘语言学’检索都能查找到。当然,分词单元的粒度大小需要考虑到查全率和查准率。对于当前的一些实际应用来说,可能时间效率是更重要的。对于那些有较高切分精度的分词算法,因为速度慢,不仅无法满足实际应用需求,有时甚至也无法满足其他自然语言处理研究的需要。在目前的许多实际应用产品中,为了保证速度,不得不牺牲部分准确度,可能也采取了一些较简单的切分算法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值