关于切词程序的一点启发

文本切词是中文信息处理的基础,除了英文以外大多和语言如中文、韩文、日文都是需要切词的。由于不同的编码形式给我们的切词带来了不便,ANS码是一个字符一个字符,而GB2312等都是两个字节表示一个字符。一般一个字符是否是多字节编码可以通过最高位来判断,如果最高位是0则是ANS码,否则多字节编码。通常人们进行切词都是将待切分文本转换成Unicode再进行切分,在实际中我经过实验这种方法其实不是很好,效率比较低。在实际中可不必将词表中的词条的切分文本转换成unicode,因为在转换过程中浪费大量的CPU时间,在词表上建立索引时也不必根据Unicode去建,直接根据字符的内码建立索引。在切词过程中不过字符移动可根据自己的实际情况两字节移动或者单字节移动。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值