DanceFire的专栏

天地不仁,以万物为刍狗

自然语言处理自然语言是人类最容易理解最容易接受的语言,我们每天都在使用。可惜的是,至今为止,我们都得需要程序员来做翻译把自然语言翻译成计算机所能理解的结构和算法,计算机才知道要做什么。也许有一天,计算机可以不需要程序员来作翻译,它可以直接的理解我们的语言。这,就是自然语言处理的目标。

原创 中科院中文分词系统ICTCLAS之人名识别词典分析

论文把与人名相关的词分为了15个角色,通过词典查询,可以判断某些文字、词所属角色,然后根据模式匹配找到匹配上的名字。当我分析nr.dct的时候,却发现nr.dct并非完全按照论文所描述的进行的角色划分。以下是我对tag统计后的nr.dct的内容,能够在论文中找到含义的,我标注上了含义。阅读全文>

发表于 @ 2007年05月13日 06:13:00|评论(loading...)|编辑|举报|收藏

原创 中科院中文分词系统ICTCLAS之CSegment的GenerateWord()详细分析

本来这个函数没有必要详细分析,但是我注意到中科院论文中并没有描述这个函数、而Sinboy和吕震宇也基本上跳过这个函数不讲了,所以这个函数还没有有人详细的分析过呢。在这里,我具体的分析一下这个函数,另外,也提出一些问题供打算重写ICTCLAS的朋友来考虑。阅读全文>

发表于 @ 2007年05月13日 05:47:00|评论(loading...)|编辑|举报|收藏

原创 中科院中文分词系统ICTCLAS之NShortPath代码的详细分析

这两天我开始看ICTCLAS的实现代码了,和吕震宇的感觉完全一样,代码真的是糟糕透顶,呵呵,非常同情吕震宇和Sinboy能够那么认真地把那些代码读完。首先就是CQueue的问题,CQueue虽然叫Queue,但是它不是FIFO的Queue。CQueue元素有一个权重eWeight,这个权重如果不为0(或者说互相之间不等),那么CQueue此时的含义是按照权重由小到大排序的优先级队列。如果CQueue的所有元素的eWeight都相等,(在ICTCLAS代码里就是都为0),此时CQueue就演变为FILO的Stack,栈。阅读全文>

发表于 @ 2007年04月17日 15:15:00|评论(loading...)|编辑|举报|收藏

Csdn Blog version 3.1a
Copyright © DanceFire