论文把与人名相关的词分为了15个角色,通过词典查询,可以判断某些文字、词所属角色,然后根据模式匹配找到匹配上的名字。当我分析nr.dct的时候,却发现nr.dct并非完全按照论文所描述的进行的角色划分。以下是我对tag统计后的nr.dct的内容,能够在论文中找到含义的,我标注上了含义。阅读全文>
发表于 @ 2007年05月13日 06:13:00|评论(loading...)|编辑
本来这个函数没有必要详细分析,但是我注意到中科院论文中并没有描述这个函数、而Sinboy和吕震宇也基本上跳过这个函数不讲了,所以这个函数还没有有人详细的分析过呢。在这里,我具体的分析一下这个函数,另外,也提出一些问题供打算重写ICTCLAS的朋友来考虑。阅读全文>
发表于 @ 2007年05月13日 05:47:00|评论(loading...)|编辑
这两天我开始看ICTCLAS的实现代码了,和吕震宇的感觉完全一样,代码真的是糟糕透顶,呵呵,非常同情吕震宇和Sinboy能够那么认真地把那些代码读完。首先就是CQueue的问题,CQueue虽然叫Queue,但是它不是FIFO的Queue。CQueue元素有一个权重eWeight,这个权重如果不为0(或者说互相之间不等),那么CQueue此时的含义是按照权重由小到大排序的优先级队列。如果CQueue的所有元素的eWeight都相等,(在ICTCLAS代码里就是都为0),此时CQueue就演变为FILO的Stack,栈。阅读全文>
发表于 @ 2007年04月17日 15:15:00|评论(loading...)|编辑