- 博客(21)
- 收藏
- 关注
转载 如何对hadoop作业的某个task进行debug单步跟踪
对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task总是失败
2011-07-13 14:06:40 423
原创 hadoop 学习地址(博客等)
http://blog.sina.com.cn/s/articlelist_1243568575_0_1.htmlhttp://www.searchtb.com/
2011-07-13 10:49:22 428
转载 Hadoop Job Tuning
http://www.searchtb.com/2010/12/hadoop-job-tuning.htmlHadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交
2011-07-13 10:41:29 335
原创 Ngram折扣平滑算法
<br />本文档翻译自srilm手册ngram-discount.7.html NAMEngram-discount – 这里主要说明srilm中实现的平滑算法 NOTATIONa_z 代表以a为起始词,以z为结束词的ngram,其中_代表0个或多个词p(a_z) 前n-1个词为a_的情况下,第n个词为z的条件概率a_ n元a_z的前n-1个词构成的前缀_z n元a_z的后n-1个词构成的后缀c(a_z) n元a_z在训练语料中出现的次数
2011-05-16 11:53:00 3459
原创 srilm 阅读文档15
Discount.cc Discount.h文档作者:rickjin创立时间:08.09.27--------------1、基本类-------------- Discount.h Discount.cc 这两个文件主要实现了最重要的几个平滑算法, 包括 a. Katz smoothing (基于 Good-Turing smoothing) b. Absolute Discounting c. Natural law of succession [Eric Sven Rista
2011-05-16 11:50:00 3881
原创 srilm 阅读文档14
<br /><br />NgramStats.h NgramStats.cc<br />文档作者:jianzhu<br />创立时间:08.09.18<br />--------------------------------------<br />1、概述<br />--------------------------------------<br /> 这两个文件主要实现了统计ngram的相关函数和功能,同时定义了<br />将统计好的ngram以文本方式和二进制方式输出到文件和从文件中读出<br
2011-05-16 11:48:00 865
原创 srilm 阅读文档13
<br />TextStats.h TextStats.cc<br />文档作者:jianzhu<br />创立时间:08.09.11--------------------------------------<br />1、概述<br />--------------------------------------<br /> 这两个文件定义了一个TextStats类,该类主要用于计算句子集<br />的perplexity值。TextStats类<br /> 该类提供了如下函数<br />
2011-05-16 11:47:00 595
原创 srilm 阅读文档12
<br /><br />LM.h LM.cc<br />文档作者:jianzhu<br />创立时间:08.10.03<br />--------------------------------------<br />1、概述<br />--------------------------------------<br /> 这两个文件定义了语言模型的最基本的接口和一些通用<br />的功能。<br /> LM类<br /> 该类实现了语言模型的基本接口和一些通用功能<br /> 该类提供
2011-05-16 11:45:00 1136
原创 srilm 阅读文档10
<br /><br />Vocab.h Vocab.cc<br />文档作者:rickjin<br />创立时间:08.09.10<br />--------------<br />1、基本类<br />--------------<br /> Vocab.h Vocab.cc 这两个文件主要提供了一个Vocab 类用于存储语料中出现的<br /> 单词, 实现一个单词(VocabString)与其对应的索引(VocabIndex)之间的快捷<br /> 映射。在语言模型(LM)中需要表示
2011-05-16 11:44:00 704
原创 srilm 阅读文档11
<br />LMStats.h LMStats.cc<br />文档作者:jianzhu<br />创立时间:08.09.18--------------------------------------<br />1、概述<br />--------------------------------------<br /> 这两个文件主要定义了语言模型中用于对句子,文本<br />和词的统计分析的接口。<br />LMStats类<br /> 该类提供了如下函数<br /> a) 构造函数<
2011-05-16 11:44:00 572
原创 srilm 阅读文档9
<br /><br />Prob.h Prob.cc<br />文档作者:jianzhu<br />创立时间:08.09.11<br />--------------------------------------<br />1、概述<br />--------------------------------------<br /> 这两个文件定义了一组函数用于处理浮点数和对数的加减操作。<br />同时定义一个用于将字符串浮点数转换为浮点数的函数。<br />--------------------
2011-05-16 11:43:00 574
原创 srilm 阅读文档8
<br />Count.h Count.cc<br />文档作者:jianzhu<br />创立时间:08.09.10--------------------------------------<br />1、概述<br />--------------------------------------<br /> 这两个文件主要定义了一组将字符串转换为整数或将整数转化为字符串的函数。<br />同时定义了一组用于读写整数和浮点数的函数。----------------------------------
2011-05-16 11:42:00 457
原创 srilm 阅读文档7
<br />XCount.h XCount.cc<br />文档作者:jianzhu<br />创立时间:08.09.08<br />--------------------------------------<br />1、基本类<br />--------------------------------------<br /> 这两个文件定义了一个用于保存和管理次数(频数)的数据结构,该文件定义的<br />XCount类用于保存频数,当该频数的值小或等于unsigned short(or unsi
2011-05-16 11:41:00 386
原创 srilm 阅读文档6
<br />IntervalHeap.h IntervalHeap.cc<br />文档作者:jianzhu<br />创立时间:08.08.30<br />--------------------------------------<br />1、基本类<br />-------------------------------------- <br /> 这两个文件主要以模板方式定义了一个区间堆(IntervalHeap)。<br />该区间堆是一个最大值堆和最小值堆的结合。通过在堆的每个节点<br
2011-05-16 11:40:00 461
原创 srilm 阅读文档5
<br />Trie.h Trie.cc LHashTrie.cc SArrayTrie.cc<br />文档作者:rickjin<br />创立时间:08.08.24--------------<br />1、基本类<br />--------------<br /> Trie.h Trie.cc 这两个文件主要以模板方式实现了一个常用Trie 结构, Trie<KeyT,<br /> DataT> 可以当作是 Map 的扩展, 把一个 KeyT 的序列 (KeyT *) 映射到数据.
2011-05-16 11:39:00 501
原创 srilm 阅读文档4
<br />LHash.h LHash.cc<br />文档作者:jianzhu<br />创立时间:08.08.23<br />--------------------------------------<br />1、基本类<br />-------------------------------------- <br /> 这两个文件主要以模板方式定义了三个类:哈希体(LHashBody)、哈希(LHash),<br />以及哈希迭代器(LHashIter)类。这三个类符合映射类型的接口方式。<
2011-05-16 11:38:00 563
原创 srilm 阅读文档2
<br />SArray.cc SArray.h<br />文档作者:rickjin<br />创立时间:08.08.24--------------<br />1、基本类<br />--------------SArray.cc SArray.h 两个文件主要是以模板方式实现了一个排序数组 SArray, 一共包含<br />三个类 : SArrayBody, SArray, SArrayIter 1) SArray<KeyT, DataT> 是一个从 KeyT 映射到 DataT 的 Map 类型
2011-05-16 11:36:00 476
原创 srilm 阅读文档3
<br />Map.h Map.cc<br />文档作者: jianzhu<br />创立时间:08.08.23--------------------------------------<br />1、基本类<br />-------------------------------------- 这两个文件主要以模板方式定义了一个映射类型(Map)的容器,该容器由三个类<br />_Map、MapEntry、Map刻画。同时定义了用于键初始化和判读键是否存在的函数。<br /> 继承结构图(M
2011-05-16 11:36:00 531
转载 srilm 阅读文档1
Array.h Array.cc文档作者:jianzhu创立时间:08.08.19--------------------------------------1、基本类-------------------------------------- 这两个文件主要以模板方式定义了一个动态数组(Array)和一个静态数组(StaticArray)。其中静态数组继承自动态数组。 继承结构图(Array.bmp)Array类 该类提供如下函数 a) 构造函数 b) 赋值操作符=函数
2011-05-16 11:18:00 950
原创 学习计划
<br />自然语言处理与数据分析 必须要学的有:<br />1. 分类聚类各算法及应用<br />2. 分词切词,词性标注等<br /> <br />C++语言学习<br />设计模式学习<br />Linux系统关系学习<br />算法分析
2011-05-09 09:51:00 270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人