自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Storm开发

以Storm开发指南中的一个简单例子开始 import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.StormSubmitter; import backtype.storm.task.OutputCollector; import backtype.storm.ta

2012-12-30 16:21:30 3469

原创 wget使用

wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。 wget命令的参数非常多,想要记住基本不可能,要用的时候直接RTFM吧 wget 镜像网站 wget  --mirror -w 2 --html-extension  --convert-links -P /xxx/xxx/xxx http:/

2012-12-30 15:05:02 692

原创 Storm基本概念

Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示:     St

2012-12-30 09:30:30 861

原创 Storm安装部署

Storm正式是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.1,基本是用Clojure写的。        Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时

2012-12-29 23:52:35 2142

原创 python字典

字典又称为关联表,是一种由键映射到值的数据结构,具有查找时间是常数的性能 一个字典条目的语法格式是 键:值。 而且,多条字典条目被包含在( { } ) 里。 1.创建字典和给字典赋值   wordcount={"hello":10,"world":32}   多从赋值,同时给多个字典赋值   (wordcount1,wordcount2)=({"hello":10,"world":32}

2012-12-29 22:44:21 639

原创 霍夫曼编码

霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就称Huffman编码。      霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相加时都将“0”和“1”赋与相

2012-12-10 12:55:51 1205

原创 Yarn初探

Yarn是新一代的MapReduce执行框架(简称为MapReduce2)和老版本的MapReduce执行框架(简称为MapReduce1)相比最大的改变是,将MapReduce1的JobTracker分解为两个部分,资源管理器和作业调度器。MapReduce2有一个全局的资源管理器(ResourceManager),负责计算分配集群的计算资源。资源管理器和多个节点管理器(NodeManager,

2012-12-09 17:06:15 1314

原创 一步一步学习hadoop(十二)

MapReduce作业输出 hadoop的输出格式和输入格式对应,都是实现类OutputFormat,按使用方式分为三种,文本格式,二进制格式,自定义文件输出(??Multiple outputs)。 1.文本格式   TextOutputFormat是Hadoop的默认输出格式,对应于KeyValueInputFormat,将键值对转化为文本,中间以分隔符(默认为\t)隔开,分隔符可以在作

2012-12-08 21:50:23 1215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除