- 博客(6)
- 收藏
- 关注
原创 CRF+Windows+Unicode
把CRF模块移植至Windows下,并修改成Unicode模式1.修改成Windows下不难,而且所幸nlpbamboo所用linux特有函数不多, 例如mmap 本想共享,不过nlpbamboo的那位大大一直联系不上,罢了。2.unicode linux下用的是utf-8处理汉字,windows下非unicode是用gb2312 折腾了一会,训练词典
2009-09-22 14:01:00 2382 2
原创 linux动态库的调试
常规做法的用gdb调试 1)文件列表: [root@localhost libketama]# ls -l总计 200-rw-r--r-- 1 1000 1000 12659 09-09 12:33 ketama.c-rw-r--r-- 1 1000 1000 12653 09-09 12:04 ketama.c~-rw-r--r-- 1 10
2009-09-11 16:19:00 2762
原创 linux虚拟机安装samba
我的linux是独立安装的,因为特殊原因不是双系统。所以每次都要切换windows和linux,切换的频繁了就有些不爽了。于是决定在windows下安装linux虚拟机.但是我有超过几个G的papers和几个G的sources需要来回共享,所以需要能比较方便的实现linux和windows之间的文件共享。 下面是一些笔记,原文来自网络 http://hex
2009-09-07 23:26:00 4347
原创 firtex的phrasequery问题
在firtex大家反映说phrasequery无效。所以跟踪了一下。不知道是不是我的版本有问题,从代码来看Query* q = QueryParser::parse(line,field,pAnalyzer,false);是不可能解析为PhraseQuery.因为都解析为布尔查询了(或者词项查询)Query* QueryParser::getFieldQuery(const tstring
2009-09-04 17:42:00 2267
原创 lucene的fuzzyquery和wildcardquery
1.fuzzyquery用编辑距离度量俩词项的相似度将所有相似的词项填充成布尔查询(或) 取所有相同前缀(前缀长度可以设定)的词项做编辑距离 2.wildcardquery lucene的wildcardquery是这样的:例如查询"华南*大学"首先根据匹配字符"*"获取前缀"华南"依旧是遍历所有前缀为"华南"的词项比较之,满足条件的填充为布尔查询(或)
2009-09-03 16:24:00 10278
原创 无语的CRF测试
跑了几天才把人民日报的预料训练完,做词性标注的。 随手做了些测试,发现一个很faint的结果 每句测试语句的首个词的词性都被标注为"m"数词 无论实际应该是人名/地名/机构名/名称等等。 由于我的印象中,CRF的记忆力是很强的。 于是看了一下训练的预料, 发现所有预料的第一个词都是类似于"19980101-01-001-001 CN m"的
2009-09-03 16:00:00 2152
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人