自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

庖丁解牛

insight into details

  • 博客(79)
  • 收藏
  • 关注

原创 蓄水池抽样(reservoir sampling)

蓄水池抽样(reservoir sampling),通俗一点而言,就是等概率的抽样算法,一般是在不知道总体样本的数量情况下。

2016-08-15 21:51:05 2875

原创 最小错误率训练(mert)基本原理学习

mert主要运用于机器翻译的参数调节过程中。由于目前主流的机器翻译模型多为log-linear模型,在log-linear模型中,有很多参数weights,对于每一个特征,都有与之对应的weight。如何调节这些weights,才能获取更好的翻译结果呢?Och提出了mert——最小错误率训练的方法用于调节参数。其实在Och之前就有参数调节的方法,他们优化的目标多为翻译结果的最大翻译概率,采用的方法多为梯度下降、Powell搜索等,由于目标函数的特性,这些方法都能够搜索到最优的结果。但是这些方法有一个

2014-05-08 15:49:14 6152

原创 层次短语模型学习笔记

摘要:层次短语模型,顾名思义,短语是具有层次关系的。机器翻译中,最重要的就是两点,第一点选词问题,第二点调序问题。层次短语模型通过“变量规则”融合了选词以及调序问题。由于源语言以及目标语言表达的不同,变量规则可以很好地捕捉到位置的变化。层次短语模型名义上属于形式化句法翻译模型,实则是短语翻译模型。重要的过程包括两点:层次短语规则的抽取以及解码。层次短语规则的抽取过程包含普通短语规则的抽取,以及包含变量的规则抽取。抽取短语最基本的条件就是“对齐一致性”。在抽取变量规则的时候,通过枚举SPAN范围内所有可能

2014-04-26 15:12:14 2815

原创 层次短语模型之短语规则抽取

层次短语模型是David Chiang在短语模型基础之上提出来的模型,该模型属于形式化句法翻译模型。将普通短语模型拓展成了层次化的短语。例如“X1 和 X2”。本文着重讲述层次短语模型的短语规则抽取模块,也就是如何从双语句对的训练集中抽取去“短语表”。我们可以参看如下图,系统的总体框架图:

2014-04-21 15:19:33 2862

原创 [文献阅读] METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments

Important Snippets:1. In order to be both effective and useful, an automatic metric for MT evaluation has to satisfy several basic criteria. The primary and most intuitive requirement is that the metric have very high correlation with quantified

2014-04-18 11:32:11 2122

原创 Linux下LC_ALL=C的含义

在很多的shell脚本中,我们经常会看见某一句命令的前面有一句“LC_ALL=C”SAR_CMD="LC_ALL=C sar -u -b 1 5 | grep -i average "这到底是什么意思?LC_ALL=C 是为了去除所有本地化的设置,让命令能正确执行。

2014-04-17 17:12:10 22715

原创 [文献阅读] A Study of Translation Edit Rate with Targeted Human Annotation

A Study of Translation Edit Rate with Targeted Human AnnotationMatthew Snover and Bonnie DorrInstitute for Advanced Computer StudiesUniversity of MarylandCollege Park, MD 20742{snover,bonnie}@umiacs.umd.edu本文重要信息摘要:1、Translation Edit Rate (TER) me

2014-04-17 15:23:20 2014

原创 Levenshtein distance

In information theory and computer science, the Levenshtein distance is a string metric for measuring the difference between two sequences. Informally, the Levenshtein distance between two words is the minimum number of single-character edits (i.e. inserti

2014-04-17 10:40:35 2022

原创 [文献阅读] Bleu: a Method for Automatic Evaluation of Machine Translation

Bleu: a Method for Automatic Evaluation of Machine TranslationAuthor: Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu IBM Research Division Thomas J. Watson Research Center P.O. Box 218 Yor

2014-04-16 15:20:56 2701

原创 [文献阅读] The Alignment Template Approach to Statistical Machine Translation

The Alignment Template Approach to Statistical Machine TranslationAuthor: Franz Josef Och∗From: 2004 Association for Computational Linguistics文章主要内容:1、提出基于短语粒度的机器翻译模型,克服基于词粒度的调序的问题。2、使用log-linear模型进行融合翻译的多特征。3、利用IBMmodel进行学习词对齐。4、通过双向词语对齐,然后进行生成更为

2014-04-15 15:04:33 1231

原创 [文献阅读] Decoding Algorithm in Statistical Machine Translation

Decoding Algorithm in Statistical Machine TranslationAuthor: Ye-yi Wang注释:这篇文章是基于IBM2模型的解码算法。 主要利用的思想就是堆栈算法。 堆栈算法是解码算法最基础的一个算法。 通过源语言端的长度进行组织堆栈。 自左向右逐渐填充每一个堆栈,直到覆盖了源端句子之后,终止!

2014-04-14 14:43:04 1116

原创 The Man in the Iron Mask

观看:中科院计算所五层时间:2014年4月1

2014-04-12 21:35:12 882

原创 [文献阅读] Automating Knowledge Acquisition for Machine Translation

本篇文章的主要内容:1、解决机器翻译问题不同的策略,word-for-word, syntax-based,semantic-based等等2、利用西班牙语-英语形象化描述,如何从平行句对中得到 短语表3、从双语语料中进行句子对齐任务4、利用EM算法获得alignment5、语言模型6、翻译模型,为何P(E|F)不如P(F|E)好?7、翻译评测的几种方法,人工策略,自动策略?8、Syntax-based 机器翻译方法9、Semantic-based 机器翻译方法,包含分析和生成,同时需要大

2014-04-11 11:06:10 1497

原创 [文献阅读] A Statistical MT Tutorial Workbook

本篇文章是统计机器翻译入门级的文章,概要的介绍了如下内容:1、统计机器翻译的信源信道模型2、语言模型->估算单语句子的流利度3、IBM模型1-3,如何进行模型之间的参数转移4、EM算法,如何解决"鸡生蛋,蛋生鸡"的问题5、其他最基本的概念,如贝叶斯公式等

2014-04-10 15:38:50 1822

原创 Chapter3 Sharing data between threads

In this chapter I discussed how problematic race conditions can be disastrous when sharing data between threads and how to use std::mutex and careful interface design to avoid them. You saw that mutexes aren’t a panacea and do have their own

2014-04-08 21:07:50 1339

原创 Chapter2 Managing threads

In this chapter I covered the basics of thread management with the C++ Standard Library: starting threads, waiting for them to finish, and not waiting for them to finish because you want them to run in the background. You also saw how to pass

2014-04-03 20:21:05 924

原创 Chapter 1 Hello, world of concurrency in C++!

SummaryIn this chapter, I covered what is meant by concurrency and multi-threading and why you’d choose to use it (or not) in your applications. I also covered the history of multi-threading in C++ from the complete lack of support in the 1998

2014-03-30 17:28:25 1345

原创 C++ Concurrency in Action 书籍阅读

并发编程,之前甚少接触,也基本上未进行过任何的编程任务。始终是心里的一个痛。于是,痛定思痛,安排今年两个月左右的时间仔细研究一本书籍《C++ Concurrency in Action》。     对于这本书的阅读计划,就是从头到尾进行阅读,这也是作者推荐的阅读方式。由于阅读的书籍是英文版,因此很多笔记可能是英文的梗概摘要。     这本书,总共有如下几章:Chapter 1 He

2014-03-27 17:36:48 2672

原创 LeetCode — Single Number II 解题报告

题目如下:题目解析:    题目的意思:给定含n个整数的数组,其中除了1个数之外,其余的数出现3次。求这个出现1次的数字是什么?    在Single Number这道题目的时候,我们巧妙的使用了数学运算中的异或操作,扫描一次数组就解决了问题。    对于这道题目,我们最先想到的方法就是排序,然后从头到尾进行扫描一次就OK,算法耗费的时间为nlgn+n,不需要额外的空间。

2014-03-27 16:30:56 1421

原创 LeetCode — Single Number 解题报告

题目如下:题目解析:      给定一个含有n个整数的数组,该数组中每个元素出现过两次,唯独有一个出现过一次。求这个数是什么?      题目的要求是:线性时间的复杂度,并且尽量别使用额外的内存空间。      这道题目最先想到的方法就是排序,然后从头到尾进行检测。      其次,想到的方法是利用额外的内存空间进行存储,扫描一次数组就OK。      上面两种方法

2014-03-27 15:23:58 1132

原创 CodeIgniter开发实际案例-新闻网站

News项目实例的具体过程:1、建立数据库2、建立Model3、建立View4、建立Controller5、配置6、测试

2014-03-25 22:53:01 4251

原创 CodeIgniter工作流程(三)

CodeIgniter工作流程图如下:1、index.php 是前台的控制器,主要是初始化CodeIgniter的底层资源,才能够正常运行CodeIgniter。2、Routing模块检测HTTP请求,决定如何处理这个请求。3、如果这个请求在Cache中存在,则直接从缓存中返回这个页面。4、如果这个请求不在Cache中,则HTTP请求以及任何用户提交的数据都需要经过Security模块进行过滤。5、Controller控制器加载底层数据模型,核心库、帮助函数以及类、其他的资源进行处理这个HTTP请

2014-03-25 21:57:07 1684

原创 CodeIgniter的安装说明(二)

该篇文章用于详细的讲解如何搭建CodeIgniter的工作环境。Windows下的安装过程如下:1、下载wampserver工具包,下载地址如下http://www.wampserver.com/en/。运用傻瓜安装方式即可。这个是网站服务器,继承了php、mysql、apache三个工具。2、下载Navicat For Mysql工具包,下载地址如下http://www.navicat.com.cn/download,运用傻瓜安装方式即可。该工具主要用于后续建立数据库,可以可视化的对数据库进行操作以

2014-03-24 21:38:05 1493

原创 CodeIgniter开源框架剖析(一)

Code Igniter是开源的网站PHP框架,是一个轻量级的框架,该框架基于MVC架构,能够快速的进行网站的开发。本系列文章,用于深度剖析CodeIgniter框架的细节,不分析该框架的底层实现细节,着重讲解如何使用这个框架。

2014-03-24 21:21:19 1390

原创 二专业论文大功告成!谨抽时间一记!

此篇文章写于2011年3月23日,今日特此拿出来与大家共勉!    从2011年3月14日开始的论文撰写,到如今初稿0.2版本完成,谨记!    刚开始,经过大量的查阅资料确定题目的方向,并写好了论文的提纲,发给指导老师,征求意见。过了一天,指导老师给我的意见却是“此题目太大,建议写《欧洲主权债务危机以及对中国的启示》”。当时的心很凉,因为辛辛苦苦准备了两天的努力成果,全部付诸

2014-03-05 17:29:51 1052

原创 为梦飞翔

此篇文章写于2011年4月11日,今日特此公布与此!高中高傲的自己,“马前失蹄”,片刻的悲伤之后,于是背负着太多太多重新登程。大学其实在迷茫中挣扎度过,自己都不清楚到底究竟何去何从,出国?读研?工作?我真的没有考虑清楚........目标未明确,何谈梦想?何谈飞翔?所以之前的我,的确很虚伪,华丽的外表和包装....但还是掩饰不了每天无所事事的彷徨,每天迷茫的日子。  但我相信一

2014-03-05 17:26:26 957

原创 shell 脚本 学习案例解析

昨天大约花了一天的功夫整理了一些shell脚本语言中语法知识,顺便写了很多的案例,分享给大家!

2014-02-22 10:31:00 2303 1

原创 2014年工作规划

2013年在眨眼的瞬间消逝而去,原以为能够有所作为,却碌碌无为,平庸度过。专业技能方面基础知识夯牢了一些,NLP领域知识未见增长,找到一份自己比较满意的工作,其他时间都不知道在干嘛..............不管如何,我不会为过去而悲伤忧愁,我只会为未来做更精心的打算和规划,在新的一年能够完成自己定制的目标就算阶段性成功,无谓那逝去的青春,只为不断成长的自我。    2014年,是十分重要的一

2014-02-10 08:43:18 888

原创 k近邻分类算法(kNN)

如上图所示,最中间的圆点,如果是3NN,则属于红色三角形,如果是5NN,则属于蓝色正方形。这就是kNN最基本的思想。但是,kNN对于每一个待分类的点,都需要和全部数据点进行距离计算,计算量太大。在下面,我们将通过一段python代码来演示kNN算法。

2014-01-13 21:39:55 3521

原创 C.Interface.And.Implementations—bit vector的实现

1、The Bit interface exports functions that manipulate bit vectors, which can be used to represent sets of integers from zero to N− 1. For example, 256-bit vectors can be used to represent sets of characters efficiently.2、Bit provides most of the set-m

2014-01-13 14:56:55 1384

原创 C.Interface.And.Implementations—ring的实现

1、A ring is much like a sequence: It holds N values associated with the integer indices zero through N −1 when N is positive. 2、An empty ring holds no values. Values are pointers. 3、Like the values in a sequence, values in a ring may be accessed by inde

2014-01-12 11:48:47 1279

原创 C.Interface.And.Implementations—sequence的实现

1、A sequence holds N values associated with the integer indices zero through N−1 when N is positive. 2、An empty sequence holds no values. 3、Like arrays, values in a sequence may be accessed by indexing; 4、they can also be added to or removed from eit

2014-01-11 21:18:41 1270

原创 C.Interface.And.Implementations—dynamic arrays的实现

1、An array is a homogeneous sequence of values in which the elements in the sequence are associated one-to-one with indices in a contiguous range. 2、Arrays in some form appear as built-in data types in virtually all programming languages.动态数组,底层的数据结构很

2014-01-10 22:45:10 1089

原创 C.Interface.And.Implementations—set的实现

1、A set is an unordered collection of distinct members. 2、The basic operations on a set are testing for membership, adding members, and removing members. 3、Other operations include set union, intersection, difference, and symmetric difference. set实现类

2014-01-10 21:38:11 1034

原创 C.Interface.And.Implementations—table(key-value系统)的实现

1、An associative table is a set of key-value pairs. It’s like an array except that the indices can be values of any type.table的实现是以哈希表和链表实现。内存形式如下:

2014-01-10 12:57:12 1185

转载 Windows下C语言的Socket编程例子(TCP和UDP)

一、TCP服务器端#include "stdafx.h"#include #include #pragma comment(lib,"ws2_32.lib")int main(int argc, char* argv[]){ //初始化WSA WORD sockVersion = MAKEWORD(2,2); WSADATA wsaData;

2014-01-09 15:28:21 1335

原创 C.Interface.And.Implementations—list(单链表)的实现

单链表的原理不在赘述!通过优美的源代码进行理解其中的道理!

2014-01-09 14:49:16 1129

原创 C.Interface.And.Implementations—memory(arena版)的实现

1、This chapter describes a memory-management interface and an imple-mentation that uses arena-based algorithms, which allocate memory from an arena and deallocate entire arenas at once.2、With the arena-based allocator, there’s no obligation to call free

2014-01-08 20:38:25 1299

原创 C.Interface.And.Implementations—memory(复杂版本)的实现

1、After the call to free, p holds a dangling pointer— a pointer that refers to memory that logically does not exist. Subse-quently dereferencing p is an error, although if the block hasn’t been reallocated for another purpose, the error might go undete

2014-01-08 14:31:02 1237

原创 C.Interface.And.Implementations—memory(简单版本)的实现

1、All nontrivial C programs allocate memory at runtime. The standard C library provides four memory-management routines:malloc , calloc , realloc, and free. 2、Mem_alloc allocates a block of at least nbytes and returns a pointer to the first

2014-01-08 10:52:25 1189

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除