NLP_todaylxp的博客-CSDN博客

NLP

关注

关注数：文章数：5 文章阅读量：18390 文章收藏量：0

作者: todaylxp

平台:windows/linux 语言:C/C++ /java/python 兴趣领域: 1.信息检索 2.模式识别 3.自然语言处理 4.分布式计算职业：搜索引擎研发工程师

展开

CRF汇总

分词过程CRF分词原理1. CRF把分词过程看做字的词位分类问题，通常定义字的词位信息如下：词首，常用B表示词中，常用M表示词尾，常用E表示单子词，常用S表示 2. CRF分词的过程就是对词位标注后，将B和E之间的字，以及S单字构成分词分词的类CRFSegParser/CRFSegProcessorCRFSegParser :分词

原创 2009-05-20 15:32:00 · 11866 阅读 · 2 评论
CRF的内存使用情况

一些零碎的改动，以节约内存。用了10万个语句做语料。特征长度6419756模板如下，没改动# UnigramU00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]U03:%x[1,0]U04:%x[2,0]U05:%x[-1,0]/%x[0,0]U06:%x[0,0]/%x[1,0]U07:%x[-1,0]/%x[1,0]U08:%x[0,1]U09:%x[-1,1

原创 2009-06-08 16:56:00 · 1045 阅读 · 0 评论
彻底重构ICTCLAS

彻底重写了ICTCLAS 测试了1000万数据的分词速度，4M/s，此速度不计字符串输入，结果输出;不过此ICTCLAS已经和原有的ICTCLAS彻底不同了-除了utility包外其他都自己重写。unicode编码的分词用了最大正向匹配，否则不可能快的，当消除歧义，未登陆词识别，词性标注时才会使用ICTCALS模块，否则正向一趟扫描即可。另外加了特例表，如果特例表命中，直接

原创 2009-06-18 17:52:00 · 945 阅读 · 0 评论
无语的CRF测试

跑了几天才把人民日报的预料训练完，做词性标注的。随手做了些测试，发现一个很faint的结果每句测试语句的首个词的词性都被标注为"m"数词无论实际应该是人名/地名/机构名/名称等等。由于我的印象中，CRF的记忆力是很强的。于是看了一下训练的预料，发现所有预料的第一个词都是类似于"19980101-01-001-001 CN m"的

原创 2009-09-03 16:00:00 · 2152 阅读 · 0 评论
CRF+Windows+Unicode

把CRF模块移植至Windows下，并修改成Unicode模式1.修改成Windows下不难，而且所幸nlpbamboo所用linux特有函数不多，例如mmap 本想共享，不过nlpbamboo的那位大大一直联系不上，罢了。2.unicode linux下用的是utf-8处理汉字，windows下非unicode是用gb2312 折腾了一会，训练词典

原创 2009-09-22 14:01:00 · 2382 阅读 · 2 评论

NLP

作者: todaylxp

CRF汇总

CRF的内存使用情况

彻底重构ICTCLAS

无语的CRF测试

CRF+Windows+Unicode