索引与分词技术
文章平均质量分 55
ddboy
这个作者很懒,什么都没留下…
展开
-
unicode编码字符保存时使用的分割符号技巧
和常规的GB系统编码不同,GB系列编码为了把汉字和ANSI字符区分,高位是大于127的,即是 > 0xFF, 可以根据这一特征去对汉字文本数据进行存储(在数据库引擎中)。 但unicode编码却没有这种规律,虽然是双字节的,但作为某种固定的数据格式存储时却有很多的不便,如果不使用特定的符号分隔,虽然用遍历的方法也能读出数据,但新效率很低,无法使用类似split的方法读取。例如说原创 2009-12-16 19:15:00 · 2166 阅读 · 0 评论 -
unicode字符编码区间表
因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,我也不知道是什么。(文 IT柏拉图) 至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。一、中文汉字区:(1)生冷字:0x3400--0x4DB5(2)普通:0原创 2009-12-16 19:17:00 · 6787 阅读 · 1 评论 -
浅谈用php对unicode转utf-8编码
(IT柏拉图 原创文章)如果只是unicode转utf-8编码的算法,网上到处都是了,不过很多人也是你抄我,我抄你,根本就不理解why和do,本文除了给出最简单的php对unicode转utf-8编码函数之外,也深入讨论了这两种编码的关系,理解好了会发现网上一些旧的东西,是严重多余兼过期的,因为从utf-8流行开始到现在,早已经由原来六字节可变编码到实际完全居于unicode(UCS-2)的稳定阶原创 2009-12-16 19:13:00 · 4225 阅读 · 3 评论 -
最佳的分词消岐处理方式
分词岐义处理是分词系统处理的最大难点之一,目前主要有下面几种处理方式:一、词频统计法举个例子说:“著作权和版权在我国是同一个概念,是法律赋予作品创作者的专有权利。”在这句话中,“我国是” 这里就是一个存在岐义的地方,它可以分为“我国 是”,也可以分为“我 国是”像这种情况,可以用居于词频法,显然“我国”比“国是”频率要高得多,因为可以确定“我国 是”是正确的模式。不过居于这种方式的原创 2009-12-16 19:19:00 · 1446 阅读 · 0 评论