2017年08月_九师兄

12月 11月 10月 09月 08月 07月 03月 02月

原创【spark】spark学习-27-Spark性能调优(2)

本文要解决的问题：从更深层次考虑，对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后，本文作为拓展篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优简述有时候，大家可能会遇到大数据开发过程中一个比较棘手的问题，那就是数据倾斜，此时Spark作业的性能会比预期差很多，数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的

2017-08-30 17:48:30 1399

原创 spark学习-Spark性能调优(1)

本文要解决的问题：Spark在使用过程中不可避免的需要进行一系列的性能优化，本文就Spark性能调优的基础部分进行总结和归纳（开发调优和资源调优），参考了不少前辈的文章，在此非常感谢。目的在大数据的领域，Spark已经成为了不可或缺的一部分，被越来越多的人使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛

2017-08-30 17:36:19 1221

原创 hadoop误删除文件

hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的，就是在删除hdfs文件时，被删除的文件被移动到了hdfs的.Trash文件夹中，恢复时只需将该文件夹中文件拿出即可。具体操作如下：　　1 设置.Trash文件夹　　如果需要恢复hdfs中文件，就需要设置.Trash，hadoop的.Trash默认是关闭的。具体设置如下：　　　　fs.trash.interval 　　10080

2017-08-30 12:37:15 950

原创 spark学习-Spark广播变量与共享变量（1）

1，概念1.1 广播变量：广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化

2017-08-25 15:29:33 5281

原创 spark学习-Spark算子Transformations和Action使用大全（Action章）

3. Action3.1 reduce3.1.1 概述语法（java）：static T reduce(Function2<T,T,T> f)说明：对RDD成员使用func进行reduce操作，func接受两个参数，合并之后只返回一个值。reduce操作的返回结果只有一个值。需要注意的是，func会并发执行3.1.2 Scala示例def reduce(sc: SparkContext):

2017-08-25 10:13:59 1022

原创 spark学习-Spark算子Transformations和Action使用大全（Transformations章（二））

2.14 join2.14.1 概述语法（java）：JavaPairRDD<K,scala.Tuple2<V,W>> join(JavaPairRDD<K,W> other)JavaPairRDD<K,scala.Tuple2<V,W>> join( JavaPairRDD<K,W> other, int numPartitions)JavaPairRDD<K,

2017-08-25 10:13:09 902

原创 spark学习-Spark算子Transformations和Action使用大全（Transformations章（一））

spark的所有transformations和action使用大全，包括java使用方法和scala的使用方法，超级实用经典

2017-08-24 14:26:04 1152

原创 spark学习-Spark的groupByKey

1.看代码package groupByKey;import java.util.Arrays;import java.util.List;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpark

2017-08-24 13:39:15 1211

原创 spark学习-20-Spark的sample理解

1.语法（java）：JavaPairRDD<K,V> sample(boolean withReplacement, double fraction)JavaPairRDD<K,V> sample(boolean withReplacement, double fraction,

2017-08-24 11:42:27 11955 1

原创 spark学习-Spark的mapPartitions与MapPartitionsWithIndex理解

1。先看一个小程序package scalaTestimport org.apache.spark.SparkContextimport org.apache.spark.sql.SparkSessionobject mapPartitions { def main(args:Array[String]){ //得到文件的所有信息 val spark = S

2017-08-23 23:01:01 1864

原创 scala学习-scala中:: , +:, :+, :::, +++的区别

4种操作符的区别和联系:: 该方法被称为cons，意为构造，向队列的头部追加数据，创造新的列表。用法为 x::list,其中x为加入到头部的元素，无论x是列表与否，它都只将成为新生成列表的第一个元素，也就是说新生成的列表长度为list的长度＋1(btw, x::list等价于list.::(x)):+和+: 两者的区别在于:+方法用于在尾部追加元素，+:方法用于在头部追加元素，和::很类似，但是::

2017-08-23 22:35:48 713

原创 spark学习-Spark的Core理解

1.为什么理解它？有一次我要跑一个任务，spark-submit提交的任务，但是它总是处于ACCEPED等待接受的状态，以前遇到这个问题，这个是内存不够引起的Spark学习-SparkSQL–05-SparkSQL CLI Application report for application_15_0022 (state: ACCEPTED) http://blog.csdn.net/qq_2

2017-08-23 16:16:35 1933 3

原创 spark学习 Java版SparkSQL程序读取Hbase表注册成表SQL查询

1.看代码package com.lcc.spark.hbase.test.SparkOnHbase;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;impo

2017-08-22 16:14:40 4719 12

原创 spark学习-Spark的Map()和FlatMap()函数使用

1。先看图解释：map函数和faltMap（）函数都会像是工厂一样，对你每个元素都做处理map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮） = {去皮苹果，去皮梨子} 其中： “去皮”函数的类型为：A => B 2.flatMap包含两个操作：会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合。 {苹果，梨子}.flatMap(切碎)

2017-08-22 11:12:18 15870

原创 spark学习-Spark Streaming初次理解

1.Spark Streaming 是 Spark Core API 的扩展，它支持弹性的，高吞吐的，容错的实时数据流的处理。数据可以通过多种数据源获取，例如 Kafka，Flume，Kinesis 以及 TCP sockets，也可以通过例如 map，reduce，join，window 等的高阶函数组成的复杂算法处理。最终，处理后的数据可以输出到文件系统，数据库以及实时仪表盘中。事实上，你还可

2017-08-22 09:33:00 902

原创【Hbase】HBase数据快速导入之ImportTsv

1。在前面的博客中使用程序导入数据，但是当数据量太大了，会非常的慢，因为他是一行一行读取的，然后put上去的，我尝试put2亿条数据结果用了一天2。现在要用改进板的，使用hbase自带的工具ImportTsv ImportTsv是Hbase提供的一个命令行工具，可以将存储在HDFS上的自定义分隔符（默认\t）的数据文件，通过一条命令方便的导入到HBase表中，对于大数据量导入非常实用，其中包含两种

2017-08-21 12:02:48 2079

原创 spark学习-JavaRDD注册成表然后用SparkSQL查询

1.先看正确的例子package com.lcc.spark.rdd.test;import java.io.Serializable;public class Person implements Serializable { /** * */ private static final long serialVersionUID = 1L; privat

2017-08-20 14:20:11 2489

原创 spark学习-SparkSQL-java版JavaRDD与JavaPairRDD的互相转换

java版JavaRDD与JavaPairRDD的互相转换JavaRDD => JavaPairRDD: 通过mapToPair函数JavaPairRDD => JavaRDD: 通过map函数转换

2017-08-20 10:56:02 4739

原创 spark学习-SparkSQL-SparkSession与SparkContext

SparkSession-Spark的一个全新的切入点在Spark的早期版本，sparkContext是进入Spark的切入点。我们都知道RDD是Spark中重要的API，然而它的创建和操作得使用sparkContext提供的API；对于RDD之外的其他东西，我们需要使用其他的Context。比如对于流处理来说，我们得使用StreamingContext；对于SQL得使用sqlC

2017-08-18 15:55:06 12255 1

原创 scala学习-scala通过mkString方法把一个集合转化为一个字符串

Problem 如果你想要把集合元素转化为字符串，可能还会添加分隔符，前缀，后缀。 Solution 使用mkString方法来打印一个集合内容，下面给一个简单的例子：scala> val a = Array("apple", "banana", "cherry")a: Array[String] = Array(apple, banana, cherry)scala> a

2017-08-18 11:44:33 8825 1

原创 scala学习-Linux命令行运行jar包传入main方法参数

1。eclipse写了一个程序，直接打包成jav普通jar包，然后无法选择主类，但是运行的时候，可以指定参数，（参数在程序里用 args(i)引用，注意是括号） 2。运行的时候，参数跟在jar包后面，用空格分开如下格式格式：$SPARK_HOME/bin/spark-submit --name "lcc_sparkSql_submit" --master yarn --executor-mem

2017-08-18 11:42:06 7790

原创 spark学习-scala版写的SparkSQL程序读取Hbase表注册成表SQL查询

1.我写了一个程序，读取hbase中的五个表并且做连接查询，在eclise中本地可以直接测试，没有配置文件，直接把hbase和spark的jar包拷贝进去就可以了package sparlsql.hbase;import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritable

2017-08-17 14:44:54 2435 2

原创【Hbase】命令行load数据文件到Hbase

2017-08-16 16:42:34 1077

原创【Hbase】程序批量put数据到Hbase

1.在hbase中建立表格create 'test_lcc_mycase','case_lizu'2。编写生成测试数据的代码package sparksql.test.domain;public class Mycase { private String c_code ; private String c_rcode ; private String c_region;

2017-08-16 16:18:11 5283 3

原创 scala学习-Description Resource Path Location Type value toDF is not a member of org.apache.spark.rdd.R

编译如下代码时，出现value toDF is not a member of org.apache.Spark.rdd.RDD[People] 错误val rdd : RDD[People]= sparkSession.sparkContext.textFile(hdfsFile,2).map(line => line.split(“,”)).map(arr => People(arr(0),a

2017-08-16 11:11:05 2793

原创 scala学习-scala读取Hbase表中数据并且做join连接查询

1。业务需求：sparkSQL on hbase ,sparkSQL直接读取Hbase中的两个表，进行连接查询。 2。图示绿色的线上图中绿色的线是做过测试的，直接在hive中建表，然后load数据进去，数据文件是存储在HDFS上的。（1）建表（2）添加数据（3）执行hive元数据命令（4）执行sparkSQL命令行（5）测试sql语句（6）执行结果蓝色的线蓝

2017-08-15 23:04:21 7891 5

原创 spark学习-spark的一些异常

Caused by: java.io.IOException: com.google.protobuf.ServiceException: java.lang.NoClassDefFoundError: com/yammer/metrics/core/GaugeCaused by: java.net.SocketTimeoutException: callTimeout=60000, callDur

2017-08-15 21:24:28 1618

原创 spark学习-SparkSQL一些函数的使用

1。parallelizePairs余parallelize/** Distribute a local Scala collection to form an RDD. */ def parallelizePairs[K, V](list: java.util.List[Tuple2[K, V]], numSlices: Int) : JavaPairRDD[K, V] = { i

2017-08-15 21:22:40 2145

原创 spark学习：org.apache.spark.SparkException: A master URL must be set in your config

Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configuration从提示中可以看出找不到程序运行的master，此时需要配置环境变量。传递给Spark的master url可以有如下几种： local 本地单线程 local[K] 本地多线程（指定

2017-08-15 21:16:06 9312 2

原创 spark学习-SparkSQL--07-SparkContext类和SparkConf类

任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext,在编程中的具体实现为： val conf = new SparkCon

2017-08-15 21:14:17 1125

原创 scala学习-scala中的元组Tuple概念

1。Tuple的英文意思是元组的意思 2。场景：当在一个方法中，你需要返回几个对象，这几个对象的类型一致，你可以返回一个数组；如果几个对象的类型不同呢，当然你可以返回一个Object[]数组，可是这样在使用结果数组的时候，就需要强转对象的类型，会导致类型不安全；也可以定义一个dto，当多个场景下需要使用的不同，需要定义多个dto，这样会类爆炸，而且重用率极低；在非常接近Java语言的Scala里

2017-08-15 21:12:30 6317

原创 Spark学习：spark读取HBase数据报异常java.io.NotSerializableException

java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

2017-08-15 20:54:22 4633

原创 scala学习-scala中的特殊符号使用

1。=> 使用目前知道的基本和匿名函数定义和函数类型声明有关，以及在case语句中的使用1、匿名函数定义，左边是参数右边是函数实现体（x: Int）=>{} 2、函数类型的声明,左边是参数类型，右边是方法返回值类型 (Int)=>(Int) 3、By-name-parameter f（p :=>Int）与2的区别

2017-08-10 13:04:34 1786

原创 scala：Scala class的构造方法与继承

有java背景的人，很清楚java是如何定义构造方法以及继承的。在scala里面，继承和java有些相似。但是构造方法的定义，就不大一样了，应该说是差别还是很大的。在java里面，定义构造方法，就是定义一个没有返回值类型的与类同名的方法。如下：package com.shihuc;public class Person { private String lastName; //姓

2017-08-10 11:18:18 1637 1

原创 SparkSQL：SparkSQL CLI Application report for application_15_0022 (state: ACCEPTED)

1.使用命令去跑SparkSQL出现这个问题[root@bigdata01 ~]# hive --service metastore[root@bigdata01 spark-2.1.1-bin-hadoop2.7]# bin/spark-sql --master yarn-client --executor-memory 80g --conf spark.sql.warehouse.dir=hd

2017-08-10 09:21:53 2491

原创 scala学习-1-eclipse编写第一个程序unknown scala version problem

0。准备工作，安装scala-2.11.8(安装windows板的http://www.scala-lang.org/download/2.11.8.html),下载spark2.1.1-bin-hadoop-2.71。下载scala的集成开发环境eclipse http://scala-ide.org/download/sdk.html2。解压就可以使用3。建立一个scala项目，把所有spar

2017-08-09 16:55:16 2279 2

原创 Spark学习-SparkSQL--04-SparkSQL CLI 单节点运行与yarn集群运行

1。单节点运行 bin/spark-sql --master spark://bigdata01.hzjs.co:7077 --executor-memory 40g --total-executor-cores 50 --conf spark.sql.warehouse.dir=hdfs://bigdata01.hzjs.co:8020/user/sparksql --conf spark.dri

2017-08-08 15:14:30 1397

原创【Hbase】eclipse下远程调试Hbase

1.准备工作，安装好HABSE之后，执行hbase shell create ‘表名称’, ‘列名称1’,’列名称2’,’列名称N’ create ‘表名称’,’列族名称’ 在HBASE中列是可以动态添加的，只需要有个列族就可以了create 'test_lcc_person','lcc_liezu'然后添加一些数据key相同的是一条数据，一共有6条数据 put ‘表名称’, ‘rowkey

2017-08-08 14:39:33 2121

原创 vm虚拟机联网最简单的方式

1。以前看vm虚拟机联网讲了一大堆，打开vm->setting->network，下面这个界面洋洋洒洒每个都讲，桥接啦，net啦，host-only啦，但是发现联网都不靠谱，还容易迷糊 2。我今天只讲最简单的桥接进行快速联网，首先如上图设置net模式然后打开我们的实体机器，看它生成的两个网卡。然后打开vm8的属相如下图，发现什么都没有，也就是说，这里的IP是动态的，是会变化的。

2017-08-07 22:54:09 1583

原创 VM安装失败 Failed to create the requested registry key Key:installer Error:1021

VM安装失败 “Failed to create the requested registry key Key:installer Error:1021” 问题描述：安装虚拟机VMWare Workstation7.1时出现failed to create the requested registry key key installer error 1021 点击“确定”后退出解决方法：

2017-08-07 21:51:26 850