自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 CRF+Windows+Unicode

把CRF模块移植至Windows下,并修改成Unicode模式1.修改成Windows下不难,而且所幸nlpbamboo所用linux特有函数不多,   例如mmap   本想共享,不过nlpbamboo的那位大大一直联系不上,罢了。2.unicode    linux下用的是utf-8处理汉字,windows下非unicode是用gb2312   折腾了一会,训练词典

2009-09-22 14:01:00 2382 2

原创 linux动态库的调试

常规做法的用gdb调试      1)文件列表:   [root@localhost libketama]# ls -l总计 200-rw-r--r-- 1 1000 1000 12659 09-09 12:33 ketama.c-rw-r--r-- 1 1000 1000 12653 09-09 12:04 ketama.c~-rw-r--r-- 1 10

2009-09-11 16:19:00 2761

原创 linux虚拟机安装samba

      我的linux是独立安装的,因为特殊原因不是双系统。所以每次都要切换windows和linux,切换的频繁了就有些不爽了。于是决定在windows下安装linux虚拟机.但是我有超过几个G的papers和几个G的sources需要来回共享,所以需要能比较方便的实现linux和windows之间的文件共享。      下面是一些笔记,原文来自网络       http://hex

2009-09-07 23:26:00 4347

原创 firtex的phrasequery问题

在firtex大家反映说phrasequery无效。所以跟踪了一下。不知道是不是我的版本有问题,从代码来看Query* q = QueryParser::parse(line,field,pAnalyzer,false);是不可能解析为PhraseQuery.因为都解析为布尔查询了(或者词项查询)Query* QueryParser::getFieldQuery(const tstring

2009-09-04 17:42:00 2266

原创 lucene的fuzzyquery和wildcardquery

1.fuzzyquery用编辑距离度量俩词项的相似度将所有相似的词项填充成布尔查询(或) 取所有相同前缀(前缀长度可以设定)的词项做编辑距离 2.wildcardquery lucene的wildcardquery是这样的:例如查询"华南*大学"首先根据匹配字符"*"获取前缀"华南"依旧是遍历所有前缀为"华南"的词项比较之,满足条件的填充为布尔查询(或)

2009-09-03 16:24:00 10278

原创 无语的CRF测试

跑了几天才把人民日报的预料训练完,做词性标注的。 随手做了些测试,发现一个很faint的结果 每句测试语句的首个词的词性都被标注为"m"数词 无论实际应该是人名/地名/机构名/名称等等。 由于我的印象中,CRF的记忆力是很强的。 于是看了一下训练的预料, 发现所有预料的第一个词都是类似于"19980101-01-001-001 CN m"的 

2009-09-03 16:00:00 2152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除