中文分词
iteye_9865
这个作者很懒,什么都没留下…
展开
-
Yard中文分词系统
Yard中文分词系统基于改进的正向最大匹配算法和全切分算法,利用双字哈希进行词典组织解决了中文长词切分带来的分词效率低下问题。 本次发布的版本为0.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题,但是对人名、地名、组织名、英文、数字等还不能进行很好的切分,在下一个版本中将解决这些问题。中文词典应用了搜狗实验室提供的互联网词库。纯java编写。本软件为开源软件你可以进行任...2009-06-11 18:57:16 · 227 阅读 · 0 评论 -
Yard中文分词系统V0.1版性能分析
Yard中文分词系统V0.1还有很多地方需要完善,它对中文人名、地名、数字、英文等还不能进行切分,在歧义句的划分上也还存在问题。我会在这个月低推出0.2版将实现对数字、英文的切分,同时将利用现有的基于词频的方法加上MP算法实现对歧义句很好的划分。好了还是来谈谈Yard中文分词系统V0.1版的性能吧。在中文分词领域中歧义句的划分比较复杂,常用的方法有FWF算法和MP算法等,在Yard系统中我没有...2009-06-12 17:43:41 · 150 阅读 · 0 评论 -
关于最大概率分词
今天晚上实验了一下最大概率分词算法感觉分词精度一般,词频词典用的是北语版的也有可能是词典的原因,明天周末打算再好好改一下Yard中文分词系统里面的归并算法。等后面下到现在汉语常用词词频词典再好好调一下最大概率分词程序。争取早一点将最大概率分词加到Yard中文分词系统中。Yard中文分词系统V0.1版下载地址:[url]http://soul-fly.iteye.com/blog/40692...2009-06-14 03:18:27 · 253 阅读 · 0 评论 -
Yard中文分词系统V0.1.1版发布啦
这次主要是对Yard中文分词系统里面关于最长词的归并算法做了优化,现在系统能够对“使用户满意的做法,乒乓球拍卖完了”这样的句型进行正确切分了。但是目前一直没有找到合适的字频词频词典,所以最大概率分词算法还没能加入到分词系统中。按计划打算在这周自己对1亿字左右的语料进行切分统计做个字频词频词典出来到时候分享给大家。 就在昨天我认识的一个学中文信息处理的兄弟,由于答辩的时候被一老教授给K了心情很不爽说...2009-06-15 13:24:35 · 171 阅读 · 0 评论 -
Yard中文分词系统V0.2.0版发布附全部源代码
经过这几天加班加点的调试Yard中文分词系统V0.2.0版本终于出来了,这次Yard中文中文系统不但能够对中文进行很好的切分而且能够能对数字和英文进行识别切分了,应JavaEyer们的要求这次将源代码一起发布出来供大家一起学习。下面谈谈中文智能分词技术在自然语言理解中的应用,智能分词技术是实现自然语言理解最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰...2009-06-18 18:13:03 · 197 阅读 · 0 评论 -
中文命名实体识别实现过程中的难点分析
前几天有网友建议把命名实体识别功能加到Yard中文分词系统中,其实我也一直在做这方面的努力只是目前还存在一些问题,与其加一个bug连连的功能进去好不如不加的好。但是在1.0正式版中命名实体识别功能一定会有的,大家拭目以待吧。 简单介绍一下什么是命名实体识别及其在实现过程中将会遇到的问题。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的...2009-06-22 17:28:29 · 1807 阅读 · 0 评论 -
判断给定中文字符所属字符集的方法
常见的中文字符集有:GB2312字符集、GBK 字符集、BIG5字符集、 GB 18030字符集。其中GB2312字符集、GBK 字符集、BIG5字符集都是采用两个字节表示一个汉字。下面的程序中h表示字符的高字节位、l表示字符的低字节位,十六进制数值表示的是各种字符编码集的边界。 public static boolean isGB2312(byte h, byte l){ ...2009-06-25 04:05:09 · 285 阅读 · 0 评论