NLP
todaylxp
平台:windows/linux
语言:C/C++ /java/python
兴趣领域:
1.信息检索
2.模式识别
3.自然语言处理
4.分布式计算
职业:
搜索引擎研发工程师
展开
-
CRF汇总
分词过程CRF分词原理1. CRF把分词过程看做字的词位分类问题,通常定义字的词位信息如下: 词首,常用B表示 词中,常用M表示 词尾,常用E表示 单子词,常用S表示 2. CRF分词的过程就是对词位标注后,将B和E之间的字,以及S单字构成分词 分词的类CRFSegParser/CRFSegProcessorCRFSegParser :分词原创 2009-05-20 15:32:00 · 11866 阅读 · 2 评论 -
CRF的内存使用情况
一些零碎的改动,以节约内存。用了10万个语句做语料。特征长度6419756模板如下,没改动# UnigramU00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]U03:%x[1,0]U04:%x[2,0]U05:%x[-1,0]/%x[0,0]U06:%x[0,0]/%x[1,0]U07:%x[-1,0]/%x[1,0]U08:%x[0,1]U09:%x[-1,1原创 2009-06-08 16:56:00 · 1045 阅读 · 0 评论 -
彻底重构ICTCLAS
彻底重写了ICTCLAS 测试了1000万数据的分词速度,4M/s,此速度不计字符串输入,结果输出;不过此ICTCLAS已经和原有的ICTCLAS彻底不同了-除了utility包外其他都自己重写。unicode编码的分词用了最大正向匹配,否则不可能快的,当消除歧义,未登陆词识别,词性标注时才会使用ICTCALS模块,否则正向一趟扫描即可。另外加了特例表,如果特例表命中,直接原创 2009-06-18 17:52:00 · 945 阅读 · 0 评论 -
无语的CRF测试
跑了几天才把人民日报的预料训练完,做词性标注的。 随手做了些测试,发现一个很faint的结果 每句测试语句的首个词的词性都被标注为"m"数词 无论实际应该是人名/地名/机构名/名称等等。 由于我的印象中,CRF的记忆力是很强的。 于是看了一下训练的预料, 发现所有预料的第一个词都是类似于"19980101-01-001-001 CN m"的原创 2009-09-03 16:00:00 · 2152 阅读 · 0 评论 -
CRF+Windows+Unicode
把CRF模块移植至Windows下,并修改成Unicode模式1.修改成Windows下不难,而且所幸nlpbamboo所用linux特有函数不多, 例如mmap 本想共享,不过nlpbamboo的那位大大一直联系不上,罢了。2.unicode linux下用的是utf-8处理汉字,windows下非unicode是用gb2312 折腾了一会,训练词典原创 2009-09-22 14:01:00 · 2382 阅读 · 2 评论