Hadoop&&Spark系列
heming621
这个作者很懒,什么都没留下…
展开
-
Spark技术内幕:究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么?Re转载 2014-12-16 22:18:06 · 488 阅读 · 0 评论 -
【Spark】RDD操作详解4——Action算子
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。图中,foreach算子通过用户自定义函数对每个数据转载 2015-09-17 17:02:29 · 503 阅读 · 0 评论 -
MapReduce过程详解
用户提交MapReduce作业到Master节点上。由Master节点将M个Map任务和R个Reduce任务分配到空闲的节点上运行。输入文件被分成固定大小 (默认为64 MB, 用户可以调整) 的M个分片(split) 。Master节点会尽量将任务分配到离输入分片较近的节点上执行, 以减少网络通信量。在Map阶段, 被分配到Map任务的节点以输入分片作为输入, 对于每条记录, 会执行map函数,原创 2015-06-03 08:39:11 · 828 阅读 · 0 评论 -
Spark RDD API详解(一) Map和Reduce
转自:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是转载 2015-05-31 10:59:35 · 332 阅读 · 0 评论 -
HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝(TFS)
一、概述手机图片或者像淘宝这样的网站中的产品图片特点:(1)、大量手机用户同时在线,执行上传、下载、read等图片操作(2)、文件数量较大,大小一般为几K到几十K左右 HDFS存储特点:(1) 流式读取方式,主要是针对一次写入,多次读出的使用模式。写入的过程使用的是append的方式。(2) 设计目的是为了存储超大文件,主转载 2015-02-04 17:28:16 · 447 阅读 · 0 评论 -
ssh无密码登陆的一个问题:DN到ND不需要密码登录,ND到DN需要密码登录
已经做的工作(a)(b)(c)(a)机器三台的hostname是:master116、master117、master118(b)先设置hosts,把对应的IP和hostname加进去:192.168.0.116 master116192.168.0.117 slave117192.168.0.118 slave118(c)关闭防火墙#chkconfig i原创 2015-02-08 15:29:32 · 620 阅读 · 0 评论 -
Lambda表达式让Spark编程更容易
近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8转载 2014-12-11 16:45:32 · 720 阅读 · 0 评论 -
Hadoop基准测试
测试对于验证系统的正确性、分析系统的性能来说非常重要,但往往容易被我们所忽视。为了能对系统有更全面的了解、能找到系统的瓶颈所在、能对系统性能做更好的改进,打算先从测试入手,学习Hadoop几种主要的测试手段。本文将分成两部分:第一部分记录如何使用Hadoop自带的测试工具进行测试;第二部分记录Intel开放的Hadoop Benchmark Suit: HiBench的安装及使用。1. H转载 2015-02-06 10:32:04 · 664 阅读 · 0 评论 -
hadoop fs {args}、hadoop dfs {args}、hdfs dfs {args}三者的区别
这是摘自stackoverflow的话:Following are the three commands which appears same but have minute differenceshadoop fs {args}hadoop dfs {args}hdfs dfs {args}hadoop fs FS relates to a原创 2014-12-21 15:11:18 · 1193 阅读 · 0 评论 -
HBase in Action-第二部分Advanced concepts-(3)非Java客户端【REST、Thrift】
HBase ShellHBase shell使用起来最方便,进入HBase shell控制台即可使用。[plain] view plaincopy$ $HBASE_HOME/bin/hbase shell 常见操作有create(创建表)/put(插入或更新数据)/get(根据rowkey查询)/scan(范围查询)/del转载 2014-12-05 09:16:04 · 83 阅读 · 0 评论 -
java.lang.IllegalArgumentException: java.net.UnknownHostException: user 错误解决
在spark-shell环境运行官网实例,每次涉及action操作,总出现错误:java.lang.IllegalArgumentException: java.net.UnknownHostException: user有的说修改hosts、有的说将$HADOOP_HOME/etc/hadoop下面的hdfs-site.xml和core-site.xml拷贝到$SPA原创 2016-11-24 10:30:50 · 23138 阅读 · 4 评论