自然语言处理(NLP)
战辉
一直从事自然语言处理(NLP),对于自然语言生成、机器翻译、语言模型等研究较多
展开
-
Relevance Ranking: from Web Search to Vertical Search 报告
今天下午听了一个学术报告《Relevance Ranking: from Web Search to Vertical Search》,报告人是来自于美国Yahoo的常毅,目前是中科院计算所在硅谷的校友会负责人。报告时间是:14:00-15:30, 计算所四层报告厅下面我将对重点内容进行一些记录,对于搜索领域我了解的不是很深,因此很多内容不会做过多解释,毕竟能力有限,如果想了解更多的内容,请大家去查看他的相关论文即可。原创 2013-12-16 16:29:20 · 2313 阅读 · 0 评论 -
[文献阅读] Automating Knowledge Acquisition for Machine Translation
本篇文章的主要内容:1、解决机器翻译问题不同的策略,word-for-word, syntax-based,semantic-based等等2、利用西班牙语-英语形象化描述,如何从平行句对中得到 短语表3、从双语语料中进行句子对齐任务4、利用EM算法获得alignment5、语言模型6、翻译模型,为何P(E|F)不如P(F|E)好?7、翻译评测的几种方法,人工策略,自动策略?8、Syntax-based 机器翻译方法9、Semantic-based 机器翻译方法,包含分析和生成,同时需要大原创 2014-04-11 11:06:10 · 1533 阅读 · 0 评论 -
[文献阅读] A Statistical MT Tutorial Workbook
本篇文章是统计机器翻译入门级的文章,概要的介绍了如下内容:1、统计机器翻译的信源信道模型2、语言模型->估算单语句子的流利度3、IBM模型1-3,如何进行模型之间的参数转移4、EM算法,如何解决"鸡生蛋,蛋生鸡"的问题5、其他最基本的概念,如贝叶斯公式等原创 2014-04-10 15:38:50 · 1855 阅读 · 0 评论 -
最小错误率训练(mert)基本原理学习
mert主要运用于机器翻译的参数调节过程中。由于目前主流的机器翻译模型多为log-linear模型,在log-linear模型中,有很多参数weights,对于每一个特征,都有与之对应的weight。如何调节这些weights,才能获取更好的翻译结果呢?Och提出了mert——最小错误率训练的方法用于调节参数。其实在Och之前就有参数调节的方法,他们优化的目标多为翻译结果的最大翻译概率,采用的方法多为梯度下降、Powell搜索等,由于目标函数的特性,这些方法都能够搜索到最优的结果。但是这些方法有一个原创 2014-05-08 15:49:14 · 6319 阅读 · 0 评论 -
层次短语模型之短语规则抽取
层次短语模型是David Chiang在短语模型基础之上提出来的模型,该模型属于形式化句法翻译模型。将普通短语模型拓展成了层次化的短语。例如“X1 和 X2”。本文着重讲述层次短语模型的短语规则抽取模块,也就是如何从双语句对的训练集中抽取去“短语表”。我们可以参看如下图,系统的总体框架图:原创 2014-04-21 15:19:33 · 2909 阅读 · 0 评论 -
[文献阅读] METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
Important Snippets:1. In order to be both effective and useful, an automatic metric for MT evaluation has to satisfy several basic criteria. The primary and most intuitive requirement is that the metric have very high correlation with quantified原创 2014-04-18 11:32:11 · 2168 阅读 · 0 评论 -
[文献阅读] A Study of Translation Edit Rate with Targeted Human Annotation
A Study of Translation Edit Rate with Targeted Human AnnotationMatthew Snover and Bonnie DorrInstitute for Advanced Computer StudiesUniversity of MarylandCollege Park, MD 20742{snover,bonnie}@umiacs.umd.edu本文重要信息摘要:1、Translation Edit Rate (TER) me原创 2014-04-17 15:23:20 · 2072 阅读 · 0 评论 -
[文献阅读] Bleu: a Method for Automatic Evaluation of Machine Translation
Bleu: a Method for Automatic Evaluation of Machine TranslationAuthor: Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu IBM Research Division Thomas J. Watson Research Center P.O. Box 218 Yor原创 2014-04-16 15:20:56 · 2756 阅读 · 0 评论 -
Levenshtein distance
In information theory and computer science, the Levenshtein distance is a string metric for measuring the difference between two sequences. Informally, the Levenshtein distance between two words is the minimum number of single-character edits (i.e. inserti原创 2014-04-17 10:40:35 · 2063 阅读 · 0 评论 -
[文献阅读] The Alignment Template Approach to Statistical Machine Translation
The Alignment Template Approach to Statistical Machine TranslationAuthor: Franz Josef Och∗From: 2004 Association for Computational Linguistics文章主要内容:1、提出基于短语粒度的机器翻译模型,克服基于词粒度的调序的问题。2、使用log-linear模型进行融合翻译的多特征。3、利用IBMmodel进行学习词对齐。4、通过双向词语对齐,然后进行生成更为原创 2014-04-15 15:04:33 · 1267 阅读 · 0 评论 -
[文献阅读] Decoding Algorithm in Statistical Machine Translation
Decoding Algorithm in Statistical Machine TranslationAuthor: Ye-yi Wang注释:这篇文章是基于IBM2模型的解码算法。 主要利用的思想就是堆栈算法。 堆栈算法是解码算法最基础的一个算法。 通过源语言端的长度进行组织堆栈。 自左向右逐渐填充每一个堆栈,直到覆盖了源端句子之后,终止!原创 2014-04-14 14:43:04 · 1150 阅读 · 0 评论 -
层次短语模型学习笔记
摘要:层次短语模型,顾名思义,短语是具有层次关系的。机器翻译中,最重要的就是两点,第一点选词问题,第二点调序问题。层次短语模型通过“变量规则”融合了选词以及调序问题。由于源语言以及目标语言表达的不同,变量规则可以很好地捕捉到位置的变化。层次短语模型名义上属于形式化句法翻译模型,实则是短语翻译模型。重要的过程包括两点:层次短语规则的抽取以及解码。层次短语规则的抽取过程包含普通短语规则的抽取,以及包含变量的规则抽取。抽取短语最基本的条件就是“对齐一致性”。在抽取变量规则的时候,通过枚举SPAN范围内所有可能原创 2014-04-26 15:12:14 · 2852 阅读 · 0 评论