庖丁解牛

insight into details

蓄水池抽样(reservoir sampling)

蓄水池抽样(reservoir sampling),通俗一点而言,就是等概率的抽样算法,一般是在不知道总体样本的数量情况下。

2016-08-15 21:51:05

阅读数 1419

评论数 0

最小错误率训练(mert)基本原理学习

mert主要运用于机器翻译的参数调节过程中。由于目前主流的机器翻译模型多为log-linear模型,在log-linear模型中,有很多参数weights,对于每一个特征,都有与之对应的weight。如何调节这些weights,才能获取更好的翻译结果呢?Och提出了mert——最小错误率训练的方法...

2014-05-08 15:49:14

阅读数 3526

评论数 0

层次短语模型学习笔记

摘要: 层次短语模型,顾名思义,短语是具有层次关系的。机器翻译中,最重要的就是两点,第一点选词问题,第二点调序问题。层次短语模型通过“变量规则”融合了选词以及调序问题。由于源语言以及目标语言表达的不同,变量规则可以很好地捕捉到位置的变化。层次短语模型名义上属于形式化句法翻译模型,实则是短语翻译模型...

2014-04-26 15:12:14

阅读数 2212

评论数 0

层次短语模型之短语规则抽取

层次短语模型是David Chiang在短语模型基础之上提出来的模型,该模型属于形式化句法翻译模型。将普通短语模型拓展成了层次化的短语。例如“X1 和 X2”。 本文着重讲述层次短语模型的短语规则抽取模块,也就是如何从双语句对的训练集中抽取去“短语表”。 我们可以参看如下图,系统的总体框架图:

2014-04-21 15:19:33

阅读数 1911

评论数 0

[文献阅读] METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments

Important Snippets: 1. In order to be both effective and useful, an automatic metric for MT evaluation has to satisfy several basic criteria....

2014-04-18 11:32:11

阅读数 1475

评论数 0

Linux下LC_ALL=C的含义

在很多的shell脚本中,我们经常会看见某一句命令的前面有一句“LC_ALL=C” SAR_CMD="LC_ALL=C sar -u -b 1 5 | grep -i average " 这到底是什么意思? LC_ALL=C 是为了去除所有本地化的设置,让命令能正确执行。

2014-04-17 17:12:10

阅读数 12631

评论数 0

[文献阅读] A Study of Translation Edit Rate with Targeted Human Annotation

A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnie Dorr Institute for Advanced Computer Studies University of...

2014-04-17 15:23:20

阅读数 1353

评论数 0

Levenshtein distance

In information theory and computer science, the Levenshtein distance is a string metric for measuring the difference between two sequences. Informall...

2014-04-17 10:40:35

阅读数 1234

评论数 0

[文献阅读] Bleu: a Method for Automatic Evaluation of Machine Translation

Bleu: a Method for Automatic Evaluation of Machine Translation Author: Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu IBM Re...

2014-04-16 15:20:56

阅读数 2197

评论数 0

[文献阅读] The Alignment Template Approach to Statistical Machine Translation

The Alignment Template Approach to Statistical Machine Translation Author: Franz Josef Och∗ From: 2004 Association for Computational Linguistics 文章...

2014-04-15 15:04:33

阅读数 1058

评论数 0

[文献阅读] Decoding Algorithm in Statistical Machine Translation

Decoding Algorithm in Statistical Machine Translation Author: Ye-yi Wang 注释:这篇文章是基于IBM2模型的解码算法。 主要利用的思想就是堆栈算法。 堆栈算法是解码算法最基础的一...

2014-04-14 14:43:04

阅读数 926

评论数 0

The Man in the Iron Mask

观看:中科院计算所五层 时间:2014年4月1

2014-04-12 21:35:12

阅读数 743

评论数 0

[文献阅读] Automating Knowledge Acquisition for Machine Translation

本篇文章的主要内容: 1、解决机器翻译问题不同的策略,word-for-word, syntax-based,semantic-based等等 2、利用西班牙语-英语形象化描述,如何从平行句对中得到 短语表 3、从双语语料中进行句子对齐任务 4、利用EM算法获得alignment 5、语言模型 6...

2014-04-11 11:06:10

阅读数 1291

评论数 0

[文献阅读] A Statistical MT Tutorial Workbook

本篇文章是统计机器翻译入门级的文章,概要的介绍了如下内容: 1、统计机器翻译的信源信道模型 2、语言模型->估算单语句子的流利度 3、IBM模型1-3,如何进行模型之间的参数转移 4、EM算法,如何解决"鸡生蛋,蛋生鸡"的问题 5、其他最基本的概念,如贝叶斯公式等

2014-04-10 15:38:50

阅读数 1488

评论数 0

Chapter3 Sharing data between threads

In this chapter I discussed how problematic race conditions can be disastrous when sharing data between threads and how to use std::mute...

2014-04-08 21:07:50

阅读数 1100

评论数 0

Chapter2 Managing threads

In this chapter I covered the basics of thread management with the C++ Standard Library: starting threads, waiting for them to finish, a...

2014-04-03 20:21:05

阅读数 767

评论数 0

Chapter 1 Hello, world of concurrency in C++!

Summary In this chapter, I covered what is meant by concurrency and multi-threading and why you’d choose to use it (or not) in your applications. I a...

2014-03-30 17:28:25

阅读数 1112

评论数 0

C++ Concurrency in Action 书籍阅读

并发编程,之前甚少接触,也基本上未进行过任何的编程任务。始终是心里的一个痛。于是,痛定思痛,安排今年两个月左右的时间仔细研究一本书籍《C++ Concurrency in Action》。      对于这本书的阅读计划,就是从头到尾进行阅读,这也是作者推荐的阅读方式。由于阅读的书籍是英文版,因...

2014-03-27 17:36:48

阅读数 2051

评论数 0

LeetCode — Single Number II 解题报告

题目如下: 题目解析:     题目的意思:给定含n个整数的数组,其中除了1个数之外,其余的数出现3次。求这个出现1次的数字是什么?     在Single Number这道题目的时候,我们巧妙的使用了数学运算中的异或操作,扫描一次数组就解决了问题。     对于这道题目,我们最先...

2014-03-27 16:30:56

阅读数 1224

评论数 0

LeetCode — Single Number 解题报告

题目如下: 题目解析:       给定一个含有n个整数的数组,该数组中每个元素出现过两次,唯独有一个出现过一次。求这个数是什么?       题目的要求是:线性时间的复杂度,并且尽量别使用额外的内存空间。       这道题目最先想到的方法就是排序,然后从头到尾进行检测。   ...

2014-03-27 15:23:58

阅读数 958

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭