2018年12月_夏至1208

原创 sparksql启动报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

要启动sparksql并访问到Hive，有两个步骤：1、将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下2、配置MySQL驱动包，将MySQL驱动包放在一个自定义目录下，在$SPARK_HOME/conf里面的spark-defaults.conf配置两个参数spark.executor.extraClassPath /home/had...

2018-12-27 14:39:16 1017

原创 Spark之广播变量Broadcast Variables与计数器Accumulators

一、广播变量Broadcast Variables 根据官方文档，广播变量Broadcast Variables可以使开发者在每个节点–即Executor上缓存一个只读的变量，它相对于在每个task上复制一份这个变量具有更好的优势。因为它能减少网络和内存的开销。例如，有一个Map数据，大小为10M。这份数据在spark执行过程中需要被用到。下面是伪代码val mapVar = new Has...

2018-12-25 14:26:32 353

原创 Spark之持久化与存储级别

一、持久化cache()与persist() 根据spark官方文档，Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存...

2018-12-25 11:14:14 2313

原创 Spark之yarn-client与yarn-cluster

摘要： spark有两种方式运行在yarn上，一种是yarn-client客户端模式，一种是yarn-cluster模式。两种模式有一定的不同点。一、Application Master 为了更好的理解这两种模式的区别先了解下Yarn的Application Master概念。在Yarn中，每个application都有一个Application Master进程，它是Appliacti...

2018-12-25 10:21:29 2221

原创 spark之算子--transformation和action

摘要 spark的RDD具有延迟计算的特性，spark有两种操作算子，一种是transformation，一种是action。tranformation是来创建RDD的，它有可能从文件创建，也可能集合中创建，也可能依赖其它RDD创建。当算子为transformation的时候，spark并不执行计算操作，只有当遇到action算子的时候才开始计算。这就是transformation的lazy特...

2018-12-20 15:32:12 786

原创 Spark之RDD的概念及其五大特性

根据RDD源码里面的注释，我们来了解一下RDD的五大特性 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on o...

2018-12-19 16:36:02 4910

原创使用IDEA开发第一个spark-maven程序--wordcount

我们来写第一个依赖maven的spark程序wordcount1、配置maven在MAVEN_HOME/conf目录下，编辑setting.xml，添加如下内容。为了方便，我使用的是阿里的镜像。 </mirrors> <mirror> <id>nexus-aliyun</id> <name>nexu...

2018-12-19 15:54:33 874

原创 hive--beeline使用

hive beeline客户端方式采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库。 HiveThrift(HiveServer)是Hive中的组件之一，设计目的是为了实现跨语言轻量级访问Hive数据仓库，有Hiveserver和 Hiveserver2两个版本，两者不兼容，使用中要注意区分。体现在启动HiveServer的参数和jdbc:hiveX的参数上。启动hi...

2018-12-11 16:16:22 1330

原创大数据开发--hadoop存储格式

行式存储与列式存储在介绍hive存储格式之前，我们先来了解一下行式存储与列式存储的区别。1、行式存储优点：一条数据就是一行，比较符合面向对象的思维，所有信息都放在一起。这种存储格式可以很方便的进行insert/update操作。缺点：a、如果只需要查询几个列的数据，它会读取所有的列的数据，而不能跳过不需要的列。一般在数据量比较大的时候性能影响比较明显。b、由于每一行中有很多不...

2018-12-11 15:33:40 706

原创大数据开发--hadoop压缩 lzo测试

摘要： lzo并不是linux系统原生支持，所以需要下载安装软件包。这里至少需要安装3个软件包：lzo, lzop, hadoop-gpl-packaging。gpl-packaging的作用主要是对压缩的lzo文件创建索引，否则的话，无论压缩文件是否大于hdfs的block大小，都只会按照默认启动2个map操作。一、安装lzop native library > wget http...

2018-12-11 09:59:18 581

原创大数据开发--hadoop压缩 snappy测试

摘要：我们用Apache或者CDH下载下来的hadoop安装包来安装hadoop是不支持snappy压缩的，我们可以查看$HADOOP_HOME/lib/native,最开始里面是空的。或者执行hadoop checknative -a来查看支持的压缩，发现压缩格式基本都是false。如果要用snappy压缩，需要重新编译hadoop。下面我们来编译hadoop。一、编译准备部署JAV...

2018-12-10 17:29:51 1446

原创大数据开发之Hadoop压缩

摘要：在大数据应用中，首先需要考虑的问题就是如何存储大量数据(HDFS)。通常情况下，我们会将每天产生的生产日志文件存储到HDFS中，久而久之会占用大量磁盘空间。而压缩技术可以大大减少数据文件对于磁盘的占用。而且在读写HDFS的时候，可以减少磁盘和网络的IO，提高MapReduce作业的效率。但是，压缩也会在一定程度上增加CPU的消耗，所以在使用压缩的时候应该综合考虑，合理使用。注意：压...

2018-12-10 16:44:04 257 1

qq_34382453的博客