中文分词
文章平均质量分 70
eaglet
这个作者很懒,什么都没留下…
展开
-
人民日报1998年中文标注语料库及读取代码
人民日报1998年中文标注语料库及读取代码代码作者:肖波语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了原创 2007-09-10 13:27:00 · 14413 阅读 · 3 评论 -
KTDictSeg 分词组件1.3版本 部分算法讨论 -- 分词粒度
作者:肖波 KTDictSeg 分词组件1.3版本已经接近完成,只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出了很多很好的意见,也对我的分词算法给出了很多中肯的建议, 在此向他们表示由衷的感谢。1.3版本的预分词算法还是沿用了之前版本的变相的最大匹配算法,这个算法有着本质的缺陷,未来的2.0版本可能会原创 2008-05-30 07:36:00 · 1198 阅读 · 2 评论 -
KTDictSeg 分词组件1.3版本 新增功能列表及下载位置
1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst 5、 增加中文人名前后缀统计和根据该统计定位人名的功能 6、 增加中文人名和未登录词出现频率统计功能 7、 增加自原创 2008-05-30 08:25:00 · 1836 阅读 · 12 评论 -
KTDictSeg 1.4 版本功能介绍 - 多元分词
KTDictSeg 1.4 版本功能介绍 - 多元分词 作者:肖波 KTDictSeg 1.4 开发了多元分词算法,其与lucene.net 配合构建全文搜索,经测试准确度接近google和baidu的水平。现将一些实现方法和测试结果公布出来,供关心分词和搜索技术的朋友们参考。 中文分词按照分词粒度来分,分成一元分词,二元分词,多元分词和精确分词等类型。一元分原创 2008-10-02 16:38:00 · 1785 阅读 · 4 评论 -
KTDictSeg 1.4正式版(1.4.2 版本)发布
1.4.2 版本是 1.4 正式版,该版本修改了 1.4.1 版本的一些错误。1、 修改 dotnetpager 一处bug2、 KTDictSeg.HighLight 当查不出结果时应返回空字符串,1.4.1版本是返回全文3、 支持 Lucene.net 2.3 版本4、 修改分词权重不对的bug5、 搜索英文不能高亮,原因是KTDictSeg.HighLight对大小原创 2008-11-17 14:00:00 · 2070 阅读 · 5 评论 -
盘古分词--功能简介
盘古分词--功能简介作者:eaglet 两年前我开发了一个KTDictSeg中文分词组件,这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促,底子没有打好,而且当时对分词的理解也比较肤浅,所以KTDictSeg组件存在很多问题,我一直想重新开放一个更好的开源分词组件,但一直没有抽出时间。上周我终于下定决心开始做这个事情,经过两原创 2009-08-29 12:08:00 · 7844 阅读 · 7 评论 -
盘古分词-中文人名识别
盘古分词-中文人名识别作者: eaglet eaglet 曾经在KTDictSeg 中分别尝试使用规则和统计方式来识别中文(汉族)人名,但效果都不理想。在盘古分词中eaglet另辟它径,采用一种新的算法来识别中文人名,效果相比规则和统计方式要好很多。下面eaglet就来介绍这种中文人名的识别方法。 要很好的识别中文人名,我们需要对要分解的句子按预处理和消除歧义原创 2009-08-29 12:09:00 · 5123 阅读 · 1 评论