- 博客(8)
- 收藏
- 关注
原创 Storm开发
以Storm开发指南中的一个简单例子开始 import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.StormSubmitter; import backtype.storm.task.OutputCollector; import backtype.storm.ta
2012-12-30 16:21:30 3469
原创 wget使用
wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。 wget命令的参数非常多,想要记住基本不可能,要用的时候直接RTFM吧 wget 镜像网站 wget --mirror -w 2 --html-extension --convert-links -P /xxx/xxx/xxx http:/
2012-12-30 15:05:02 692
原创 Storm基本概念
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示: St
2012-12-30 09:30:30 861
原创 Storm安装部署
Storm正式是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.1,基本是用Clojure写的。 Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时
2012-12-29 23:52:35 2142
原创 python字典
字典又称为关联表,是一种由键映射到值的数据结构,具有查找时间是常数的性能 一个字典条目的语法格式是 键:值。 而且,多条字典条目被包含在( { } ) 里。 1.创建字典和给字典赋值 wordcount={"hello":10,"world":32} 多从赋值,同时给多个字典赋值 (wordcount1,wordcount2)=({"hello":10,"world":32}
2012-12-29 22:44:21 639
原创 霍夫曼编码
霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就称Huffman编码。 霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相加时都将“0”和“1”赋与相
2012-12-10 12:55:51 1205
原创 Yarn初探
Yarn是新一代的MapReduce执行框架(简称为MapReduce2)和老版本的MapReduce执行框架(简称为MapReduce1)相比最大的改变是,将MapReduce1的JobTracker分解为两个部分,资源管理器和作业调度器。MapReduce2有一个全局的资源管理器(ResourceManager),负责计算分配集群的计算资源。资源管理器和多个节点管理器(NodeManager,
2012-12-09 17:06:15 1314
原创 一步一步学习hadoop(十二)
MapReduce作业输出 hadoop的输出格式和输入格式对应,都是实现类OutputFormat,按使用方式分为三种,文本格式,二进制格式,自定义文件输出(??Multiple outputs)。 1.文本格式 TextOutputFormat是Hadoop的默认输出格式,对应于KeyValueInputFormat,将键值对转化为文本,中间以分隔符(默认为\t)隔开,分隔符可以在作
2012-12-08 21:50:23 1215
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人