自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 如何对hadoop作业的某个task进行debug单步跟踪

对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task总是失败

2011-07-13 14:06:40 423

原创 hadoop 学习地址(博客等)

http://blog.sina.com.cn/s/articlelist_1243568575_0_1.htmlhttp://www.searchtb.com/

2011-07-13 10:49:22 428

转载 Hadoop Job Tuning

http://www.searchtb.com/2010/12/hadoop-job-tuning.htmlHadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交

2011-07-13 10:41:29 335

原创 SRILM 阅读文档原文地址

http://blogold.chinaunix.net/u1/58264/article_96731.html

2011-05-16 11:54:00 659

原创 Ngram折扣平滑算法

<br />本文档翻译自srilm手册ngram-discount.7.html NAMEngram-discount – 这里主要说明srilm中实现的平滑算法 NOTATIONa_z         代表以a为起始词,以z为结束词的ngram,其中_代表0个或多个词p(a_z)     前n-1个词为a_的情况下,第n个词为z的条件概率a_           n元a_z的前n-1个词构成的前缀_z           n元a_z的后n-1个词构成的后缀c(a_z)   n元a_z在训练语料中出现的次数

2011-05-16 11:53:00 3459

原创 srilm 阅读文档15

Discount.cc Discount.h文档作者:rickjin创立时间:08.09.27--------------1、基本类--------------    Discount.h Discount.cc 这两个文件主要实现了最重要的几个平滑算法, 包括     a. Katz smoothing (基于 Good-Turing smoothing)    b. Absolute Discounting    c. Natural law of succession [Eric Sven Rista

2011-05-16 11:50:00 3881

原创 srilm 阅读文档14

<br /><br />NgramStats.h NgramStats.cc<br />文档作者:jianzhu<br />创立时间:08.09.18<br />--------------------------------------<br />1、概述<br />--------------------------------------<br />    这两个文件主要实现了统计ngram的相关函数和功能,同时定义了<br />将统计好的ngram以文本方式和二进制方式输出到文件和从文件中读出<br

2011-05-16 11:48:00 865

原创 srilm 阅读文档13

<br />TextStats.h TextStats.cc<br />文档作者:jianzhu<br />创立时间:08.09.11--------------------------------------<br />1、概述<br />--------------------------------------<br />    这两个文件定义了一个TextStats类,该类主要用于计算句子集<br />的perplexity值。TextStats类<br />    该类提供了如下函数<br /> 

2011-05-16 11:47:00 595

原创 srilm 阅读文档12

<br /><br />LM.h LM.cc<br />文档作者:jianzhu<br />创立时间:08.10.03<br />--------------------------------------<br />1、概述<br />--------------------------------------<br />   这两个文件定义了语言模型的最基本的接口和一些通用<br />的功能。<br />  LM类<br />      该类实现了语言模型的基本接口和一些通用功能<br />  该类提供

2011-05-16 11:45:00 1136

原创 srilm 阅读文档10

<br /><br />Vocab.h Vocab.cc<br />文档作者:rickjin<br />创立时间:08.09.10<br />--------------<br />1、基本类<br />--------------<br />    Vocab.h Vocab.cc 这两个文件主要提供了一个Vocab 类用于存储语料中出现的<br />    单词, 实现一个单词(VocabString)与其对应的索引(VocabIndex)之间的快捷<br />    映射。在语言模型(LM)中需要表示

2011-05-16 11:44:00 704

原创 srilm 阅读文档11

<br />LMStats.h LMStats.cc<br />文档作者:jianzhu<br />创立时间:08.09.18--------------------------------------<br />1、概述<br />--------------------------------------<br />    这两个文件主要定义了语言模型中用于对句子,文本<br />和词的统计分析的接口。<br />LMStats类<br />    该类提供了如下函数<br />    a) 构造函数<

2011-05-16 11:44:00 572

原创 srilm 阅读文档9

<br /><br />Prob.h Prob.cc<br />文档作者:jianzhu<br />创立时间:08.09.11<br />--------------------------------------<br />1、概述<br />--------------------------------------<br />    这两个文件定义了一组函数用于处理浮点数和对数的加减操作。<br />同时定义一个用于将字符串浮点数转换为浮点数的函数。<br />--------------------

2011-05-16 11:43:00 574

原创 srilm 阅读文档8

<br />Count.h Count.cc<br />文档作者:jianzhu<br />创立时间:08.09.10--------------------------------------<br />1、概述<br />--------------------------------------<br />   这两个文件主要定义了一组将字符串转换为整数或将整数转化为字符串的函数。<br />同时定义了一组用于读写整数和浮点数的函数。----------------------------------

2011-05-16 11:42:00 457

原创 srilm 阅读文档7

<br />XCount.h XCount.cc<br />文档作者:jianzhu<br />创立时间:08.09.08<br />--------------------------------------<br />1、基本类<br />--------------------------------------<br />   这两个文件定义了一个用于保存和管理次数(频数)的数据结构,该文件定义的<br />XCount类用于保存频数,当该频数的值小或等于unsigned short(or unsi

2011-05-16 11:41:00 386

原创 srilm 阅读文档6

<br />IntervalHeap.h IntervalHeap.cc<br />文档作者:jianzhu<br />创立时间:08.08.30<br />--------------------------------------<br />1、基本类<br />-------------------------------------- <br />    这两个文件主要以模板方式定义了一个区间堆(IntervalHeap)。<br />该区间堆是一个最大值堆和最小值堆的结合。通过在堆的每个节点<br

2011-05-16 11:40:00 461

原创 srilm 阅读文档5

<br />Trie.h  Trie.cc  LHashTrie.cc  SArrayTrie.cc<br />文档作者:rickjin<br />创立时间:08.08.24--------------<br />1、基本类<br />--------------<br />    Trie.h Trie.cc 这两个文件主要以模板方式实现了一个常用Trie 结构, Trie<KeyT,<br />    DataT> 可以当作是 Map 的扩展, 把一个 KeyT 的序列 (KeyT *) 映射到数据. 

2011-05-16 11:39:00 501

原创 srilm 阅读文档4

<br />LHash.h LHash.cc<br />文档作者:jianzhu<br />创立时间:08.08.23<br />--------------------------------------<br />1、基本类<br />-------------------------------------- <br />    这两个文件主要以模板方式定义了三个类:哈希体(LHashBody)、哈希(LHash),<br />以及哈希迭代器(LHashIter)类。这三个类符合映射类型的接口方式。<

2011-05-16 11:38:00 563

原创 srilm 阅读文档2

<br />SArray.cc SArray.h<br />文档作者:rickjin<br />创立时间:08.08.24--------------<br />1、基本类<br />--------------SArray.cc SArray.h 两个文件主要是以模板方式实现了一个排序数组 SArray, 一共包含<br />三个类 : SArrayBody, SArray, SArrayIter    1) SArray<KeyT, DataT> 是一个从 KeyT 映射到 DataT 的 Map 类型

2011-05-16 11:36:00 476

原创 srilm 阅读文档3

<br />Map.h Map.cc<br />文档作者: jianzhu<br />创立时间:08.08.23--------------------------------------<br />1、基本类<br />--------------------------------------    这两个文件主要以模板方式定义了一个映射类型(Map)的容器,该容器由三个类<br />_Map、MapEntry、Map刻画。同时定义了用于键初始化和判读键是否存在的函数。<br />    继承结构图(M

2011-05-16 11:36:00 531

转载 srilm 阅读文档1

Array.h Array.cc文档作者:jianzhu创立时间:08.08.19--------------------------------------1、基本类--------------------------------------    这两个文件主要以模板方式定义了一个动态数组(Array)和一个静态数组(StaticArray)。其中静态数组继承自动态数组。    继承结构图(Array.bmp)Array类    该类提供如下函数    a) 构造函数    b) 赋值操作符=函数   

2011-05-16 11:18:00 950

原创 学习计划

<br />自然语言处理与数据分析 必须要学的有:<br />1. 分类聚类各算法及应用<br />2. 分词切词,词性标注等<br /> <br />C++语言学习<br />设计模式学习<br />Linux系统关系学习<br />算法分析

2011-05-09 09:51:00 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除