自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 sparksql启动报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

  要启动sparksql并访问到Hive,有两个步骤:1、将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下2、配置MySQL驱动包,将MySQL驱动包放在一个自定义目录下,在$SPARK_HOME/conf里面的spark-defaults.conf配置两个参数spark.executor.extraClassPath /home/had...

2018-12-27 14:39:16 1017

原创 Spark之广播变量Broadcast Variables与计数器Accumulators

一、广播变量Broadcast Variables  根据官方文档,广播变量Broadcast Variables可以使开发者在每个节点–即Executor上缓存一个只读的变量,它相对于在每个task上复制一份这个变量具有更好的优势。因为它能减少网络和内存的开销。例如,有一个Map数据,大小为10M。这份数据在spark执行过程中需要被用到。下面是伪代码val mapVar = new Has...

2018-12-25 14:26:32 353

原创 Spark之持久化与存储级别

一、持久化cache()与persist()  根据spark官方文档,Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓存...

2018-12-25 11:14:14 2313

原创 Spark之yarn-client与yarn-cluster

摘要:  spark有两种方式运行在yarn上,一种是yarn-client客户端模式,一种是yarn-cluster模式。两种模式有一定的不同点。一、Application Master  为了更好的理解这两种模式的区别先了解下Yarn的Application Master概念。在Yarn中,每个application都有一个Application Master进程,它是Appliacti...

2018-12-25 10:21:29 2221

原创 spark之算子--transformation和action

摘要  spark的RDD具有延迟计算的特性,spark有两种操作算子,一种是transformation,一种是action。tranformation是来创建RDD的,它有可能从文件创建,也可能集合中创建,也可能依赖其它RDD创建。当算子为transformation的时候,spark并不执行计算操作,只有当遇到action算子的时候才开始计算。这就是transformation的lazy特...

2018-12-20 15:32:12 786

原创 Spark之RDD的概念及其五大特性

根据RDD源码里面的注释,我们来了解一下RDD的五大特性 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on o...

2018-12-19 16:36:02 4910

原创 使用IDEA开发第一个spark-maven程序--wordcount

我们来写第一个依赖maven的spark程序wordcount1、配置maven在MAVEN_HOME/conf目录下,编辑setting.xml,添加如下内容。为了方便,我使用的是阿里的镜像。 </mirrors> <mirror> <id>nexus-aliyun</id> <name>nexu...

2018-12-19 15:54:33 874

原创 hive--beeline使用

  hive beeline客户端方式采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库。  HiveThrift(HiveServer)是Hive中的组件之一,设计目的是为了实现跨语言轻量级访问Hive数据仓库,有Hiveserver和 Hiveserver2两个版本,两者不兼容,使用中要注意区分。体现在启动HiveServer的参数和jdbc:hiveX的参数上。启动hi...

2018-12-11 16:16:22 1330

原创 大数据开发--hadoop存储格式

行式存储与列式存储  在介绍hive存储格式之前,我们先来了解一下行式存储与列式存储的区别。1、行式存储优点:  一条数据就是一行,比较符合面向对象的思维,所有信息都放在一起。这种存储格式可以很方便的进行insert/update操作。缺点:a、如果只需要查询几个列的数据,它会读取所有的列的数据,而不能跳过不需要的列。一般在数据量比较大的时候性能影响比较明显。b、由于每一行中有很多不...

2018-12-11 15:33:40 706

原创 大数据开发--hadoop压缩 lzo测试

摘要:  lzo并不是linux系统原生支持,所以需要下载安装软件包。这里至少需要安装3个软件包:lzo, lzop, hadoop-gpl-packaging。gpl-packaging的作用主要是对压缩的lzo文件创建索引,否则的话,无论压缩文件是否大于hdfs的block大小,都只会按照默认启动2个map操作。一、安装lzop native library > wget http...

2018-12-11 09:59:18 581

原创 大数据开发--hadoop压缩 snappy测试

摘要:  我们用Apache或者CDH下载下来的hadoop安装包来安装hadoop是不支持snappy压缩的,我们可以查看$HADOOP_HOME/lib/native,最开始里面是空的。或者执行hadoop checknative -a来查看支持的压缩,发现压缩格式基本都是false。如果要用snappy压缩,需要重新编译hadoop。下面我们来编译hadoop。一、编译准备部署JAV...

2018-12-10 17:29:51 1446

原创 大数据开发之Hadoop压缩

摘要:  在大数据应用中,首先需要考虑的问题就是如何存储大量数据(HDFS)。通常情况下,我们会将每天产生的生产日志文件存储到HDFS中,久而久之会占用大量磁盘空间。而压缩技术可以大大减少数据文件对于磁盘的占用。而且在读写HDFS的时候,可以减少磁盘和网络的IO,提高MapReduce作业的效率。但是,压缩也会在一定程度上增加CPU的消耗,所以在使用压缩的时候应该综合考虑,合理使用。注意: 压...

2018-12-10 16:44:04 257 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除