配置管理库 typesafe.config的简单使用

1 maven配置 <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifac...

2019-04-11 13:56:22

阅读数 23

评论数 0

idea svn连接https报错问题: E230001: Server SSL certificate verification failed: certificate issued

使用idea下代码时报了错E170013 E230001: Server SSL certificate verification failed: certificate issued、 网上找了下相同的问题,在此记录下解决方案 cmd打开运行窗口,执行以下命令 svn ls https://x...

2019-03-12 09:29:13

阅读数 25

评论数 0

linux查询文件内容以及显示出文件名

find . -type f -name *CUSTR2019*.txt -print | xargs grep 512923197208267087 | awk -F '|' '{print $1 $2 $28}' –CUSTR2019.txt 文件 –51292319720826708...

2019-02-18 11:11:10

阅读数 129

评论数 0

kafka zookeeper 单节点安装测试

一 介质版本 kafka_2.11-1.1.1.tar zookeeper-3.4.5-cdh5.7.0.tar 二 安装 1、解压 tar -zxvf kafka_2.11-1.1.1.tar -C /app tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar -C /...

2019-01-31 11:02:01

阅读数 59

评论数 0

记一次离线安装CDH-5.12.0错误

java.lang.IllegalArgumentException: Invalid value set for db.setupType, the valid values are EMBEDDED or EXTERNAL at com.google.common.base.Precondit...

2019-01-11 10:36:59

阅读数 45

评论数 0

Hive自定义函数UDF

一、hive自定义函数有三种,即UDF,UDAF,UDTF。 UDF 一进一出   对每一条输入分别处理,有多少输入就有多少输出。 UDAF 多进一出   例如sum这种功能的函数,对输入数据有聚合功能。多条数据生成一条数据。 UDTF 一进多出   例如将一条数据按照规则切分为多列。一条数...

2019-01-07 15:16:18

阅读数 33

评论数 0

spark之推测执行

1、什么是推测执行?   在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行就是当出现同一个stage里面...

2019-01-04 16:19:20

阅读数 489

评论数 0

Spark SQL之外部数据源

概述   从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作,也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图...

2019-01-04 10:43:49

阅读数 53

评论数 0

sparksql启动报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

  要启动sparksql并访问到Hive,有两个步骤: 1、将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下 2、配置MySQL驱动包,将MySQL驱动包放在一个自定义目录下,在$SPARK_HOME/conf里面的spark-defaults...

2018-12-27 14:39:16

阅读数 134

评论数 0

Spark之广播变量Broadcast Variables与计数器Accumulators

一、广播变量Broadcast Variables   根据官方文档,广播变量Broadcast Variables可以使开发者在每个节点–即Executor上缓存一个只读的变量,它相对于在每个task上复制一份这个变量具有更好的优势。因为它能减少网络和内存的开销。例如,有一个Map数据,大小为1...

2018-12-25 14:26:32

阅读数 35

评论数 0

Spark之持久化与存储级别

一、持久化cache()与persist()   根据spark官方文档,Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接...

2018-12-25 11:14:14

阅读数 207

评论数 0

Spark之yarn-client与yarn-cluster

摘要:   spark有两种方式运行在yarn上,一种是yarn-client客户端模式,一种是yarn-cluster模式。两种模式有一定的不同点。 一、Application Master   为了更好的理解这两种模式的区别先了解下Yarn的Application Master概念。在Y...

2018-12-25 10:21:29

阅读数 122

评论数 0

spark之算子--transformation和action

摘要   spark的RDD具有延迟计算的特性,spark有两种操作算子,一种是transformation,一种是action。tranformation是来创建RDD的,它有可能从文件创建,也可能集合中创建,也可能依赖其它RDD创建。当算子为transformation的时候,spark并不...

2018-12-20 15:32:12

阅读数 92

评论数 0

Spark之RDD的概念及其五大特性

根据RDD源码里面的注释,我们来了解一下RDD的五大特性 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for...

2018-12-19 16:36:02

阅读数 445

评论数 0

使用IDEA开发第一个spark-maven程序--wordcount

我们来写第一个依赖maven的spark程序wordcount 1、配置maven 在MAVEN_HOME/conf目录下,编辑setting.xml,添加如下内容。为了方便,我使用的是阿里的镜像。 </mirrors> <mi...

2018-12-19 15:54:33

阅读数 177

评论数 0

hive--beeline使用

  hive beeline客户端方式采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库。   HiveThrift(HiveServer)是Hive中的组件之一,设计目的是为了实现跨语言轻量级访问Hive数据仓库,有Hiveserver和 Hiveserver2两个版本,两者不...

2018-12-11 16:16:22

阅读数 128

评论数 0

大数据开发--hadoop存储格式

行式存储与列式存储   在介绍hive存储格式之前,我们先来了解一下行式存储与列式存储的区别。 1、行式存储 优点:   一条数据就是一行,比较符合面向对象的思维,所有信息都放在一起。这种存储格式可以很方便的进行insert/update操作。 缺点: a、如果只需要查询几个列的数据,...

2018-12-11 15:33:40

阅读数 218

评论数 0

大数据开发--hadoop压缩 lzo测试

摘要:   lzo并不是linux系统原生支持,所以需要下载安装软件包。这里至少需要安装3个软件包:lzo, lzop, hadoop-gpl-packaging。gpl-packaging的作用主要是对压缩的lzo文件创建索引,否则的话,无论压缩文件是否大于hdfs的block大小,都只会按照默...

2018-12-11 09:59:18

阅读数 95

评论数 0

大数据开发--hadoop压缩 snappy测试

摘要:   我们用Apache或者CDH下载下来的hadoop安装包来安装hadoop是不支持snappy压缩的,我们可以查看$HADOOP_HOME/lib/native,最开始里面是空的。或者执行hadoop checknative -a来查看支持的压缩,发现压缩格式基本都是false。如果要...

2018-12-10 17:29:51

阅读数 209

评论数 0

大数据开发之Hadoop压缩

摘要:   在大数据应用中,首先需要考虑的问题就是如何存储大量数据(HDFS)。通常情况下,我们会将每天产生的生产日志文件存储到HDFS中,久而久之会占用大量磁盘空间。而压缩技术可以大大减少数据文件对于磁盘的占用。而且在读写HDFS的时候,可以减少磁盘和网络的IO,提高MapReduce作业的效率...

2018-12-10 16:44:04

阅读数 38

评论数 1

提示
确定要删除当前文章?
取消 删除