自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (10)
  • 收藏
  • 关注

原创 【spark】spark学习-27-Spark性能调优(2)

本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的

2017-08-30 17:48:30 1399

原创 spark学习-Spark性能调优(1)

本文要解决的问题:Spark在使用过程中不可避免的需要进行一系列的性能优化,本文就Spark性能调优的基础部分进行总结和归纳(开发调优和资源调优),参考了不少前辈的文章,在此非常感谢。目的在大数据的领域,Spark已经成为了不可或缺的一部分,被越来越多的人使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛

2017-08-30 17:36:19 1221

原创 hadoop误删除文件

hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的,就是在删除hdfs文件时,被删除的文件被移动到了hdfs的.Trash文件夹中,恢复时只需将该文件夹中文件拿出即可。具体操作如下:  1 设置.Trash文件夹   如果需要恢复hdfs中文件,就需要设置.Trash,hadoop的.Trash默认是关闭的。具体设置如下:      fs.trash.interval   10080

2017-08-30 12:37:15 950

原创 spark学习-Spark广播变量与共享变量(1)

1,概念1.1 广播变量:广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存,在运行任务之前被反序列化

2017-08-25 15:29:33 5281

原创 spark学习-Spark算子Transformations和Action使用大全(Action章)

3. Action3.1 reduce3.1.1 概述语法(java):static T reduce(Function2<T,T,T> f)说明: 对RDD成员使用func进行reduce操作,func接受两个参数,合并之后只返回一个值。reduce操作的返回结果只有一个值。需要注意的是,func会并发执行3.1.2 Scala示例def reduce(sc: SparkContext):

2017-08-25 10:13:59 1022

原创 spark学习-Spark算子Transformations和Action使用大全(Transformations章(二))

2.14 join2.14.1 概述语法(java):JavaPairRDD<K,scala.Tuple2<V,W>> join(JavaPairRDD<K,W> other)JavaPairRDD<K,scala.Tuple2<V,W>> join( JavaPairRDD<K,W> other, int numPartitions)JavaPairRDD<K,

2017-08-25 10:13:09 902

原创 spark学习-Spark算子Transformations和Action使用大全(Transformations章(一))

spark的所有transformations和action使用大全,包括java使用方法和scala的使用方法,超级实用经典

2017-08-24 14:26:04 1152

原创 spark学习-Spark的groupByKey

1.看代码package groupByKey;import java.util.Arrays;import java.util.List;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpark

2017-08-24 13:39:15 1211

原创 spark学习-20-Spark的sample理解

1.语法(java):JavaPairRDD<K,V> sample(boolean withReplacement, double fraction)JavaPairRDD<K,V> sample(boolean withReplacement, double fraction,

2017-08-24 11:42:27 11955 1

原创 spark学习-Spark的mapPartitions与MapPartitionsWithIndex理解

1。先看一个小程序package scalaTestimport org.apache.spark.SparkContextimport org.apache.spark.sql.SparkSessionobject mapPartitions { def main(args:Array[String]){ //得到文件的所有信息 val spark = S

2017-08-23 23:01:01 1864

原创 scala学习-scala中:: , +:, :+, :::, +++的区别

4种操作符的区别和联系:: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::list,其中x为加入到头部的元素,无论x是列表与否,它都只将成为新生成列表的第一个元素,也就是说新生成的列表长度为list的长度+1(btw, x::list等价于list.::(x)):+和+: 两者的区别在于:+方法用于在尾部追加元素,+:方法用于在头部追加元素,和::很类似,但是::

2017-08-23 22:35:48 713

原创 spark学习-Spark的Core理解

1.为什么理解它? 有一次我要跑一个任务,spark-submit提交的任务,但是它总是处于ACCEPED等待接受的状态,以前遇到这个问题,这个是内存不够引起的Spark学习-SparkSQL–05-SparkSQL CLI Application report for application_15_0022 (state: ACCEPTED) http://blog.csdn.net/qq_2

2017-08-23 16:16:35 1933 3

原创 spark学习 Java版SparkSQL程序读取Hbase表注册成表SQL查询

1.看代码package com.lcc.spark.hbase.test.SparkOnHbase;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;impo

2017-08-22 16:14:40 4719 12

原创 spark学习-Spark的Map()和FlatMap()函数使用

1。先看图 解释:map函数和faltMap()函数都会像是工厂一样,对你每个元素都做处理map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) = {去皮苹果,去皮梨子} 其中: “去皮”函数的类型为:A => B 2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。 {苹果,梨子}.flatMap(切碎)

2017-08-22 11:12:18 15870

原创 spark学习-Spark Streaming初次理解

1.Spark Streaming 是 Spark Core API 的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理。数据可以通过多种数据源获取,例如 Kafka,Flume,Kinesis 以及 TCP sockets,也可以通过例如 map,reduce,join,window 等的高阶函数组成的复杂算法处理。最终,处理后的数据可以输出到文件系统,数据库以及实时仪表盘中。事实上,你还可

2017-08-22 09:33:00 902

原创 【Hbase】HBase数据快速导入之ImportTsv

1。在前面的博客中使用程序导入数据,但是当数据量太大了,会非常的慢,因为他是一行一行读取的,然后put上去的,我尝试put2亿条数据结果用了一天2。现在要用改进板的,使用hbase自带的工具ImportTsv ImportTsv是Hbase提供的一个命令行工具,可以将存储在HDFS上的自定义分隔符(默认\t)的数据文件,通过一条命令方便的导入到HBase表中,对于大数据量导入非常实用,其中包含两种

2017-08-21 12:02:48 2079

原创 spark学习-JavaRDD注册成表然后用SparkSQL查询

1.先看正确的例子package com.lcc.spark.rdd.test;import java.io.Serializable;public class Person implements Serializable { /** * */ private static final long serialVersionUID = 1L; privat

2017-08-20 14:20:11 2489

原创 spark学习-SparkSQL-java版JavaRDD与JavaPairRDD的互相转换

java版JavaRDD与JavaPairRDD的互相转换JavaRDD => JavaPairRDD: 通过mapToPair函数JavaPairRDD => JavaRDD: 通过map函数转换

2017-08-20 10:56:02 4739

原创 spark学习-SparkSQL-SparkSession与SparkContext

SparkSession-Spark的一个全新的切入点 在Spark的早期版本,sparkContext是进入Spark的切入点。我们都知道RDD是Spark中重要的API,然而它的创建和操作得使用sparkContext提供的API;对于RDD之外的其他东西,我们需要使用其他的Context。比如对于流处理来说,我们得使用StreamingContext;对于SQL得使用sqlC

2017-08-18 15:55:06 12255 1

原创 scala学习-scala通过mkString方法把一个集合转化为一个字符串

Problem 如果你想要把集合元素转化为字符串,可能还会添加分隔符,前缀,后缀。 Solution 使用mkString方法来打印一个集合内容,下面给一个简单的例子:scala> val a = Array("apple", "banana", "cherry")a: Array[String] = Array(apple, banana, cherry)scala> a

2017-08-18 11:44:33 8825 1

原创 scala学习-Linux命令行运行jar包传入main方法参数

1。eclipse写了一个程序,直接打包成jav普通jar包,然后无法选择主类,但是运行的时候,可以指定参数,(参数在程序里用 args(i)引用,注意是括号) 2。运行的时候,参数跟在jar包后面,用空格分开 如下格式格式:$SPARK_HOME/bin/spark-submit --name "lcc_sparkSql_submit" --master yarn --executor-mem

2017-08-18 11:42:06 7790

原创 spark学习-scala版写的SparkSQL程序读取Hbase表注册成表SQL查询

1.我写了一个程序,读取hbase中的五个表并且做连接查询,在eclise中本地可以直接测试,没有配置文件,直接把hbase和spark的jar包拷贝进去就可以了package sparlsql.hbase;import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritable

2017-08-17 14:44:54 2435 2

原创 【Hbase】命令行load数据文件到Hbase

0。hbase中建表create 'test_lcc_mycase','case_lizu'1。文件内容如下A0|case_lizu:c_code|A0A0|case_lizu:c_rcode|8A0|case_lizu:c_cate|刑事案件A0|case_lizu:c_start|2006/06/26 00:00:00A0|case_lizu:c_end|2006/06/26 23:00

2017-08-16 16:42:34 1077

原创 【Hbase】程序批量put数据到Hbase

1.在hbase中建立表格create 'test_lcc_mycase','case_lizu'2。编写生成测试数据的代码package sparksql.test.domain;public class Mycase { private String c_code ; private String c_rcode ; private String c_region;

2017-08-16 16:18:11 5283 3

原创 scala学习-Description Resource Path Location Type value toDF is not a member of org.apache.spark.rdd.R

编译如下代码时,出现value toDF is not a member of org.apache.Spark.rdd.RDD[People] 错误val rdd : RDD[People]= sparkSession.sparkContext.textFile(hdfsFile,2).map(line => line.split(“,”)).map(arr => People(arr(0),a

2017-08-16 11:11:05 2793

原创 scala学习-scala读取Hbase表中数据并且做join连接查询

1。业务需求:sparkSQL on hbase ,sparkSQL直接读取Hbase中的两个表,进行连接查询。 2。图示 绿色的线 上图中绿色的线是做过测试的,直接在hive中建表,然后load数据进去,数据文件是存储在HDFS上的。 (1)建表 (2)添加数据 (3)执行hive元数据命令 (4)执行sparkSQL命令行 (5)测试sql语句 (6)执行结果蓝色的线 蓝

2017-08-15 23:04:21 7891 5

原创 spark学习-spark的一些异常

Caused by: java.io.IOException: com.google.protobuf.ServiceException: java.lang.NoClassDefFoundError: com/yammer/metrics/core/GaugeCaused by: java.net.SocketTimeoutException: callTimeout=60000, callDur

2017-08-15 21:24:28 1618

原创 spark学习-SparkSQL一些函数的使用

1。parallelizePairs余parallelize/** Distribute a local Scala collection to form an RDD. */ def parallelizePairs[K, V](list: java.util.List[Tuple2[K, V]], numSlices: Int) : JavaPairRDD[K, V] = { i

2017-08-15 21:22:40 2145

原创 spark学习:org.apache.spark.SparkException: A master URL must be set in your config

Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configuration从提示中可以看出找不到程序运行的master,此时需要配置环境变量。 传递给Spark的master url可以有如下几种: local 本地单线程 local[K] 本地多线程(指定

2017-08-15 21:16:06 9312 2

原创 spark学习-SparkSQL--07-SparkContext类和SparkConf类

任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext,在编程中的具体实现为: val conf = new SparkCon

2017-08-15 21:14:17 1125

原创 scala学习-scala中的元组Tuple概念

1。Tuple的英文意思是元组的意思 2。场景:当在一个方法中, 你需要返回几个对象,这几个对象的类型一致,你可以返回一个数组;如果几个对象的类型不同呢,当然你可以返回一个Object[]数组,可是这样在使用结果数组的时候,就需要强转对象的类型,会导致类型不安全;也可以定义一个dto,当多个场景下需要使用的不同,需要定义多个dto,这样会类爆炸,而且重用率极低;在非常接近Java语言的Scala里

2017-08-15 21:12:30 6317

原创 Spark学习:spark读取HBase数据报异常java.io.NotSerializableException

java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

2017-08-15 20:54:22 4633

原创 scala学习-scala中的特殊符号使用

1。=> 使用 目前知道的基本和匿名函数定义和函数类型声明有关,以及在case语句中的使用1、 匿名函数定义, 左边是参数 右边是函数实现体 (x: Int)=>{} 2、函数类型的声明,左边是参数类型,右边是方法返回值类型 (Int)=>(Int) 3、By-name-parameter f(p :=>Int) 与2的区别

2017-08-10 13:04:34 1786

原创 scala:Scala class的构造方法与继承

有java背景的人,很清楚java是如何定义构造方法以及继承的。在scala里面,继承和java有些相似。但是构造方法的定义,就不大一样了,应该说是差别还是很大的。在java里面,定义构造方法,就是定义一个没有返回值类型的与类同名的方法。如下:package com.shihuc;public class Person { private String lastName; //姓

2017-08-10 11:18:18 1637 1

原创 SparkSQL:SparkSQL CLI Application report for application_15_0022 (state: ACCEPTED)

1.使用命令去跑SparkSQL出现这个问题[root@bigdata01 ~]# hive --service metastore[root@bigdata01 spark-2.1.1-bin-hadoop2.7]# bin/spark-sql --master yarn-client --executor-memory 80g --conf spark.sql.warehouse.dir=hd

2017-08-10 09:21:53 2491

原创 scala学习-1-eclipse编写第一个程序unknown scala version problem

0。准备工作,安装scala-2.11.8(安装windows板的http://www.scala-lang.org/download/2.11.8.html),下载spark2.1.1-bin-hadoop-2.71。下载scala的集成开发环境eclipse http://scala-ide.org/download/sdk.html2。解压就可以使用3。建立一个scala项目,把所有spar

2017-08-09 16:55:16 2279 2

原创 Spark学习-SparkSQL--04-SparkSQL CLI 单节点运行与yarn集群运行

1。单节点运行 bin/spark-sql --master spark://bigdata01.hzjs.co:7077 --executor-memory 40g --total-executor-cores 50 --conf spark.sql.warehouse.dir=hdfs://bigdata01.hzjs.co:8020/user/sparksql --conf spark.dri

2017-08-08 15:14:30 1397

原创 【Hbase】eclipse下远程调试Hbase

1.准备工作,安装好HABSE之后,执行hbase shell create ‘表名称’, ‘列名称1’,’列名称2’,’列名称N’ create ‘表名称’,’列族名称’ 在HBASE中列是可以动态添加的,只需要有个列族就可以了create 'test_lcc_person','lcc_liezu'然后添加一些数据key相同的是一条数据,一共有6条数据 put ‘表名称’, ‘rowkey

2017-08-08 14:39:33 2121

原创 vm虚拟机联网最简单的方式

1。以前看vm虚拟机联网讲了一大堆,打开vm->setting->network,下面这个界面洋洋洒洒每个都讲,桥接啦,net啦,host-only啦,但是发现联网都不靠谱,还容易迷糊 2。我今天只讲最简单的桥接进行快速联网,首先如上图设置net模式 然后打开我们的实体机器,看它生成的两个网卡。 然后打开vm8的属相如下图,发现什么都没有,也就是说,这里的IP是动态的,是会变化的。

2017-08-07 22:54:09 1583

原创 VM安装失败 Failed to create the requested registry key Key:installer Error:1021

VM安装失败 “Failed to create the requested registry key Key:installer Error:1021” 问题描述: 安装虚拟机VMWare Workstation7.1时出现failed to create the requested registry key key installer error 1021 点击“确定”后退出解决方法:

2017-08-07 21:51:26 850

Eclipse Formatter 模板 Formatter.xml

Formatter模板设置好后,保存时可自动格式化代码。代码的空格处理,写的时候不用再担心格式问题。设置保存时,仅保存编辑的行,这样不会更新其他行的代码,提交代码时,也是只变更自己编辑的行。

2020-11-11

Drools-复杂事件处理

drools复杂事件处理,详细说明文档。一些语法的详细解析

2018-09-30

excel操作包

excel导入到数据库的工具包

2017-02-20

eclipse的hadoop插件

2016-09-14

hadoop学习文档

2016-09-14

hadoop单结点

hadoop单结点

2016-06-16

hadoop单结点配置

hadoop单结点配置,根据官网配置的实验

2016-06-16

native_32位

Hadoop配置需要的32位 native_32位

2016-06-16

s2sh整合配置,非常适合初学者,明白配置流程

非常适合初学者掌握ssh2整合的例子,献给初学者

2015-12-18

打飞机代码

一个打飞机游戏代码,全java写的,能实现打飞机的基本功能

2015-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除