2009年09月_todaylxp

原创 CRF+Windows+Unicode

把CRF模块移植至Windows下，并修改成Unicode模式1.修改成Windows下不难，而且所幸nlpbamboo所用linux特有函数不多，例如mmap 本想共享，不过nlpbamboo的那位大大一直联系不上，罢了。2.unicode linux下用的是utf-8处理汉字，windows下非unicode是用gb2312 折腾了一会，训练词典

2009-09-22 14:01:00 2382 2

原创 linux动态库的调试

常规做法的用gdb调试 1）文件列表： [root@localhost libketama]# ls -l总计 200-rw-r--r-- 1 1000 1000 12659 09-09 12:33 ketama.c-rw-r--r-- 1 1000 1000 12653 09-09 12:04 ketama.c~-rw-r--r-- 1 10

2009-09-11 16:19:00 2762

原创 linux虚拟机安装samba

我的linux是独立安装的，因为特殊原因不是双系统。所以每次都要切换windows和linux，切换的频繁了就有些不爽了。于是决定在windows下安装linux虚拟机.但是我有超过几个G的papers和几个G的sources需要来回共享，所以需要能比较方便的实现linux和windows之间的文件共享。下面是一些笔记，原文来自网络 http://hex

2009-09-07 23:26:00 4347

原创 firtex的phrasequery问题

在firtex大家反映说phrasequery无效。所以跟踪了一下。不知道是不是我的版本有问题，从代码来看Query* q = QueryParser::parse(line,field,pAnalyzer,false);是不可能解析为PhraseQuery.因为都解析为布尔查询了(或者词项查询)Query* QueryParser::getFieldQuery(const tstring

2009-09-04 17:42:00 2267

原创 lucene的fuzzyquery和wildcardquery

1.fuzzyquery用编辑距离度量俩词项的相似度将所有相似的词项填充成布尔查询(或) 取所有相同前缀(前缀长度可以设定)的词项做编辑距离 2.wildcardquery lucene的wildcardquery是这样的:例如查询"华南*大学"首先根据匹配字符"*"获取前缀"华南"依旧是遍历所有前缀为"华南"的词项比较之，满足条件的填充为布尔查询(或)

2009-09-03 16:24:00 10278

原创无语的CRF测试

跑了几天才把人民日报的预料训练完，做词性标注的。随手做了些测试，发现一个很faint的结果每句测试语句的首个词的词性都被标注为"m"数词无论实际应该是人名/地名/机构名/名称等等。由于我的印象中，CRF的记忆力是很强的。于是看了一下训练的预料，发现所有预料的第一个词都是类似于"19980101-01-001-001 CN m"的

2009-09-03 16:00:00 2152

某某某的专栏

原创 CRF+Windows+Unicode

原创 linux动态库的调试

原创 linux虚拟机安装samba

原创 firtex的phrasequery问题

原创 lucene的fuzzyquery和wildcardquery

原创无语的CRF测试

空空如也

空空如也

原创 CRF+Windows+Unicode

原创 linux动态库的调试

原创 linux虚拟机安装samba

原创 firtex的phrasequery问题

原创 lucene的fuzzyquery和wildcardquery

原创 无语的CRF测试

空空如也

空空如也

原创无语的CRF测试