自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (14)
  • 收藏
  • 关注

原创 基于短语的解码器的实现

    从10月1号下雪那天开始,到今天结束,整整十天,终于实现了基于短语的解码器。    该解码器完全兼容pharaoh和moses,配置文件完全一样,甚至翻译出来的译文也非常相似。    解码器现在可以翻译oov词,可以产生nbest列表, 可惜速度比较慢,因为剪枝比较粗糙。    语言模型调用srilm实现,主要使用stl库。虽然STL比较通用, 但确实不太方便,不如自己手动

2010-01-10 17:46:00 523

原创 调用srilm的接口

    由于要写解码器,为了省却麻烦直接调用srilm,注意事项如下: (1)makefile文件中的头文件和库文件的顺序。 LM_DIR=/home/share/MT/srilmLM_INCLUDE=$(LM_DIR)/includeLM_LIB=lm/liboolm.a lm/libdstruct.a  lm/libmisc.a lm/liblattice.a lm/libfl

2010-01-06 17:36:00 1478 1

原创 杂感

躲进小楼成一统,管他冬夏与春秋,鲁迅也很宅。JAVA,就是夹着尾巴做人,在各个平台间见缝插针。c,很难,c++,还不错,c#,是个人就能学会,程序设计语言的名字越复杂,掌握难度越低。程序设计语言越难学,越容易与单一平台发生仅仅绑定,也越容易被淘汰,也越容易高薪。精通的计算机领域越通用,越不具体,越理论,越容易被人捧成牛人,所以都喜欢数据结构和算法。教操作系统的不看系统源码,教编

2009-12-28 09:46:00 505 1

原创 最大熵马尔科夫模型

    下面的文章为图片格式,因为网页上没法写公式。    此文介绍最大熵马尔科夫模型,其实就是把hmm模型和最大熵模型撮合在一起,比较简单,效果一般,但比hmm模型的计算复杂性高得多,不过最大熵马尔科夫模型的2.0版本比较牛x,它就是crf。 

2009-12-27 19:23:00 5762 1

原创 为什么研究?

    十年前中文分词的工程水平就已经很高,十年后中文分词的水平似乎并未明显提高,这十年中学术界发了多少关于分词研究的papers,实在难以统计。    十年前流行使用hmm模型分词,5年前流行使用最大熵模型分词,2年前流行crf模型分词,1年前流行最大间隔距离马尔科夫模型。    每一种模型都号称提高了分词准确率,最大熵比hmm模型提高0.5个百分点,crf模型又比最大熵模型提高了0.5

2009-12-26 20:18:00 710 1

原创 周四 某著名网络公司应聘经过

全部是手工编程题目。  1 把句子中的字符串按照空格reverse   例如:the son of Mary.        结果为:Mary. of  son the   2 40亿的整数二进制文件的排序问题。   3 给定二叉树和某个整数,要求打印出二叉树上自底到叶子的二叉树的节点和=该整数的节点轨迹。                             10       

2009-12-20 21:14:00 478

原创 分词测试

     今天无聊至极,于是测试三个分词系统以作消遣。这三个分词系统的准确率均为国内外巨牛X的系统(一个为微软的系统,一个为香港xx的系统,还有一个规则系统),虽然分词速度不一样,但今天俺们仅仅关心它们的准确率。    测试语料为四大名著中的某一章,部分分词结果如下:      却说庄客王四,一觉直睡到二更,方醒觉来,看见月光微微照在身上,吃了一惊,跳将起来,却见四边都是松树。便去腰里

2009-12-19 15:24:00 1076 1

原创 烂谈 分词、数据结构和算法

今天看到一个帖子介绍自己的分词系统,见:http://topic.csdn.net/u/20090209/18/3351b4f2-3ac3-4d89-99f9-77a870d3b8ea.html?seed=724503554&r=62029500#r_62029500    帖子作者大概有些沾沾自喜于分词速度,由于俺的专业是自然语言处理,因此想说几句。    在我所了解的关于分词的研究和系统中

2009-12-18 19:46:00 874

原创 字本位的中文文本分词

                                          中文文本分词 中文分词的四个难题:1)        “词”的界定。2)        分词与理解孰先孰后。3)        分词歧义。4)        未登录词识别。 四个难题的解决方案:1)        分词规范+词表+分词语料库 来界定词。从单一的“分词规范”到“规范

2009-12-15 19:35:00 818

原创 冒泡算法的准确性

 BUBBLESORT(A)1    for i=1 to length(A)2        do for j=length(A) downto i+13                 do if A[j] 4                          then exchange A[j]A[j-1] (1)对2-4行给出精确的循环不变式。    a:初

2009-12-13 16:27:00 362

原创 合并排序+插入排序

 void insert_sort(int *array,int beg,int end){int m,n,value;for(n = beg+1;n {value = array[n];for(m = n-1;m >= beg;m--){if(value > array[m])break;elsearray[m+1] = array[m];}array[m+1] = value;}ret

2009-12-13 16:16:00 418

原创 判断集合S中是否存在两个其和等于x的元素

《算法导论》第23页练习2.3-7:    请给出一个运行时间为nlogn的算法,使之能在给定一个由n个整数构成的集合S和另一个整数时,判断出S中是否存在两个其和等于x的元素。    (1) 产生随机数    (2) 合并排序,复杂度为nlogn    (3) 查找符合要求的元素,复杂度为nlogn  总的复杂度为nlogn。 #include #include  

2009-12-13 15:55:00 901

原创 谁是SB?

在国内最牛的几个搜索引擎搜索“SB”,结果如下:(1)Google的搜索结果 (2)百度的搜索结果(百度很阴险,连关键字都没有匹配就把Google放在第一位了。)  (3)bing的搜索结果 (4)sogou的搜索结果(sogou很逗,直接骂人了) (5)有道的搜索结果   

2009-12-08 20:21:00 469

原创 快速分词方法的问题

今天心血来潮,从www.nlp.org.cn上下载了快速分词的系统,然后测试一通,硬件:内存512,CPU 3.00 GHZ,建议或问题如下:fastseg在自带语料的情况下速度很快,系统提示为19MB/s。这种速度闻所未闻。fastseg在我提供的347MB的语料上,分词速度为3MB/s。速度很一般。fastseg的两种分词结果差距很大,这种差距源于作者假想的测试条件,第

2009-12-08 11:18:00 393

原创 面试试题和答案

    前几天被人面试,给了五道题,下面是问题及答案。     1 一堆数字去重    答案:    如果输入数组足够小的话,例如    for(int i = 0;i     {        map[array[i]] = 0;    }  map是平衡二叉树,在log2(array.size())的时间内即可实现。 如果输入数组非常大,超过了已有内

2009-11-24 20:24:00 610 1

原创 最大熵推导

    ........................到此为止吧,贴了N张图片,比较麻烦。

2009-11-24 20:03:00 985

原创 雷同?偶然?

 这一段时间在看最大熵的一些东东,无意中翻到了两篇文章,都是博士论文,一篇国外,一篇国内。国外的那篇文论是专业内比较有影响的关于最大熵的论文,作者Adwait Ratnaparkhi,国内的那一篇是某重点大学的论文。前一篇文章完成于1998年,后一篇完成于2005年。    两篇论文都是关于最大熵模型在自然语言处理中的应用,内容和框架非常接近。国外的那篇论文框架如下:    1 最大熵

2009-11-24 19:51:00 409

Java虚拟机

Java虚拟机

2013-08-15

JAVA网络编程与分布式计算

JAVA网络编程与分布式计算

2013-08-15

zeromq中文教程

zeromq中文教程

2013-08-15

模式分类 Richard O.Duda 中译本

模式分类 Richard O.Duda 中译本

2013-08-14

JAVA核心技术-基础知识

JAVA核心技术-基础知识

2013-08-14

JAVA优化编程

JAVA优化编程

2013-08-14

C++ 参考大全

C++ 参考大全

2013-08-14

Lucene In Action中文

Lucene In Action中文

2013-08-14

Scala_编程_scala

vScala编程

2013-08-14

Erlang程序设计

Erlang程序设计

2013-08-14

深度探索C++对象模型

深度探索C++对象模型

2013-08-14

UNIX网络编程

UNIX网络编程

2013-08-14

TCP-IP详解卷1:协议

TCP-IP详解卷1:协议

2013-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除