自然语言处理
风帆_1986
这个作者很懒,什么都没留下…
展开
-
面试试题和答案
前几天被人面试,给了五道题,下面是问题及答案。 1 一堆数字去重 答案: 如果输入数组足够小的话,例如 for(int i = 0;i { map[array[i]] = 0; } map是平衡二叉树,在log2(array.size())的时间内即可实现。 如果输入数组非常大,超过了已有内原创 2009-11-24 20:24:00 · 624 阅读 · 1 评论 -
最大熵推导
........................到此为止吧,贴了N张图片,比较麻烦。原创 2009-11-24 20:03:00 · 1007 阅读 · 0 评论 -
字本位的中文文本分词
中文文本分词 中文分词的四个难题:1) “词”的界定。2) 分词与理解孰先孰后。3) 分词歧义。4) 未登录词识别。 四个难题的解决方案:1) 分词规范+词表+分词语料库 来界定词。从单一的“分词规范”到“规范原创 2009-12-15 19:35:00 · 836 阅读 · 0 评论 -
分词测试
今天无聊至极,于是测试三个分词系统以作消遣。这三个分词系统的准确率均为国内外巨牛X的系统(一个为微软的系统,一个为香港xx的系统,还有一个规则系统),虽然分词速度不一样,但今天俺们仅仅关心它们的准确率。 测试语料为四大名著中的某一章,部分分词结果如下: 却说庄客王四,一觉直睡到二更,方醒觉来,看见月光微微照在身上,吃了一惊,跳将起来,却见四边都是松树。便去腰里原创 2009-12-19 15:24:00 · 1101 阅读 · 1 评论 -
烂谈 分词、数据结构和算法
今天看到一个帖子介绍自己的分词系统,见:http://topic.csdn.net/u/20090209/18/3351b4f2-3ac3-4d89-99f9-77a870d3b8ea.html?seed=724503554&r=62029500#r_62029500 帖子作者大概有些沾沾自喜于分词速度,由于俺的专业是自然语言处理,因此想说几句。 在我所了解的关于分词的研究和系统中原创 2009-12-18 19:46:00 · 889 阅读 · 0 评论 -
最大熵马尔科夫模型
下面的文章为图片格式,因为网页上没法写公式。 此文介绍最大熵马尔科夫模型,其实就是把hmm模型和最大熵模型撮合在一起,比较简单,效果一般,但比hmm模型的计算复杂性高得多,不过最大熵马尔科夫模型的2.0版本比较牛x,它就是crf。原创 2009-12-27 19:23:00 · 5785 阅读 · 1 评论 -
基于短语的解码器的实现
从10月1号下雪那天开始,到今天结束,整整十天,终于实现了基于短语的解码器。 该解码器完全兼容pharaoh和moses,配置文件完全一样,甚至翻译出来的译文也非常相似。 解码器现在可以翻译oov词,可以产生nbest列表, 可惜速度比较慢,因为剪枝比较粗糙。 语言模型调用srilm实现,主要使用stl库。虽然STL比较通用, 但确实不太方便,不如自己手动原创 2010-01-10 17:46:00 · 537 阅读 · 0 评论