![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
[3]Spark
hjw199089
从事大数据
(1)查询引擎开发-presto深度开发-hive开发-自研查询引擎开发
(2)大数据用户行为分析
(3)spark、sparkstreaming、storm、druid开发应用经验
(4)数据仓库开发
展开
-
SparkSQL-2.0-新特性
Starting Point: SparkSessionThe entry point into all functionality in Spark is the SparkSession class. To create a basic SparkSession, just use SparkSession.builder():import org.apache.s原创 2017-05-24 18:23:34 · 1074 阅读 · 0 评论 -
spark-Spark Configuration
原文:spark configurationSpark provides three locations to configure the system:Spark properties control most application parameters and can be set by using a SparkConf object, or through Jav翻译 2017-05-24 21:27:48 · 709 阅读 · 0 评论 -
spark写mysql解决schema不一致问题的简单方法
http://blog.csdn.net/zhong_han_jun/article/details/50855720http://3iter.com/2015/12/10/Spark-SQL-%E8%AF%BB%E5%86%99MySQL/https://www.iteblog.com/archives/1290http://bit1129.iteye.com/blog/218640原创 2017-01-11 21:25:54 · 2723 阅读 · 0 评论 -
spark-Tuning spark
原文:Tuning SparkTuning SparkData Serialization序列化在分布式应用的性能中扮演重要角色,提供两种序列化:Java serialization: By default, Spark serializes objects using Java’s ObjectOutputStream framework, and can翻译 2017-05-25 10:38:16 · 407 阅读 · 0 评论 -
spark优化
1. 部分Executor不执行任务或task过多等待时间过长(1) 任务partition数过少, 每个partition只会在一个task上执行任务。改变分区数,可以通过 repartition 方法,即使这样,在 repartition 前还是要从数据源读取数据,此时(读入数据时)的并发度根据不同的数据源受到不同限制,常用的大概有以下几种:hdfs - block数就是p原创 2017-06-04 21:59:02 · 1538 阅读 · 0 评论 -
Spark性能优化指南——基础篇
引用:点击打开链接前言开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,是对Spark的原理有较深层次掌握和研究的同学,主要讲解了如何对Spark作业的shuffle运行过程以及细节进行调优。本文作为转载 2017-06-04 22:01:12 · 330 阅读 · 0 评论 -
Spark性能优化指南——高级篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html:点击打开链接感谢原作者前言分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执转载 2017-06-04 22:03:47 · 298 阅读 · 0 评论 -
RDD基础学习-[4]PairRDD聚合函数基础
待续。。。package com.dt.spark.main.RDDLearn.PairRDDAggrFunAPIimport org.apache.spark.{SparkConf, SparkContext}/** * Created by on 16/7/17. *///=======================================原创 2016-12-06 00:46:20 · 802 阅读 · 0 评论 -
spark-Cluster Mode Overview整理学习
简单介绍Spark在clusters模式的运行(application submission guide)ComponentsSparkContext可连接到不同的集群管理器(Spark’s own standalone cluster manager, Mesos or YARN)),集群管理器负责分布资源,链接之后在节点中得到executors,executors为ap翻译 2017-05-24 21:06:46 · 538 阅读 · 0 评论 -
《高性能spark》笔记
High Performance SparkChatper 2 How Spark Worksspark是依托于分布式存储系统集群管理器之上的分布式通用计算框架Spark Components 基于抽象数据集RDD:惰性预估计、静态类型、分布式集合,具有tansformatins 操作函数Spark Model of Para翻译 2017-09-15 00:37:30 · 2394 阅读 · 0 评论 -
高性能spark
High Performance Spark学习笔记: gitBookChapter 2 How Spark Worksspark是依托于分布式存储系统集群管理器之上的分布式通用计算框架Spark Components基于抽象数据集RDD:惰性预估计、静态类型、分布式集合,具有tansformatins 操作函数翻译 2017-09-29 21:52:44 · 753 阅读 · 0 评论 -
Spark中job、stage、task的划分+源码执行过程分析
job、stage、task Worker Node:物理节点,上面执行executor进程 Executor:Worker Node为某应用启动的一个进程,执行多个tasks Jobs:action 的触发会生成一个job, Job会提交给DAGScheduler,分解成Stage, Stage:DAGScheduler 根据shuffle将job划分为不同的stage,同一个sta原创 2017-09-11 22:20:36 · 12985 阅读 · 4 评论 -
Apache Ignite
待学习The high-performance in-memory computing with Apache Ignite book got publishedhttps://dzone.com/articles/increasing-spark-job-performances-with-apache-igni原创 2017-12-08 10:49:47 · 474 阅读 · 0 评论 -
Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+spark-sql CLI 查询
下面简单记录mac单机spark安装测试的过程已安装好单机的伪分布式Hadoop,见Mac单机Hadoop安装备忘 已安装好单机的hive,见Mac-单机Hive安装与测试 单机Mac安装spark并做简单yarn模式shell测试配置SparkSQL查询Hivespark-sql CLI 查询Hive一、安装Spark1-下载安装scalahttps://原创 2018-01-11 23:44:19 · 2569 阅读 · 0 评论 -
Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()
一、在 Spark SQL中有时会因为数据倾斜影响节点间数据处理速度,可在SQL中添加distribute by rand()来防止数据倾斜val dataRDD = sqlContext.sql( "select A ,B from table your_table distribute by rand() " )二、在数据量过大时,若在Spark SQL中 使用原创 2017-02-04 11:40:27 · 11148 阅读 · 0 评论 -
hadoop2.7.3下spark2.1.0安装_yarn作业提交
已安装hadoop2.7.2,安装spark2.1.0设f1为master,f2至f5位worker1-下载安装scala-2.11.8https://www.scala-lang.org/download/tar -zxvf scala-2.11.8.tgz 至/data 下配置环境变量vi /etc/profile export SCA原创 2017-05-11 22:39:49 · 1255 阅读 · 0 评论 -
Spark SQL通过JDBC连接MySQL读写数据
Spark SQL通过JDBC连接MySQL读写数据来源:传智播客云计算学科转自:http://heb.itcast.cn/news/20151229/16012088060.shtml?qq-pf-to=pcqq.discussionSpark SQL通过JDBC连接MySQL读写数据Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFr转载 2016-12-08 18:27:27 · 7217 阅读 · 1 评论 -
RDD基础学习-[1]RDD建立与WordCount
简介构建RDD[1]读外部文件: textFile()[2]从scala数据集构建RDD: parallelize()readme.txtI love youPlease waiting for meI will try my best to find youimport org.apache.spark.{SparkConf, Spar原创 2016-12-05 22:39:42 · 511 阅读 · 0 评论 -
RDD基础学习-[2]RDD分区
简介[1]coalesce:对RDD重新分区def coalesce(numPartitions : scala.Int, shuffle : scala.Boolean = { /* compiledcode */ })(implicit ord : scala.Ordering[T](1)若减少分区,直接设置新的分区数即可(2)若增加分区个数,设置shuffle = true 应用:原创 2016-12-05 22:45:30 · 483 阅读 · 0 评论 -
RDD基础学习-[3]RDD聚合函数基础
简介[1]aggregate:将RDD元素由类型T聚合成U输出 即给定类型U初识值zeroValue 利用Function2[U,T, U]将每个分区中元素聚合成U类型的输出,然后Function2[U, U, U]对分区聚合 defaggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp :scala.Func原创 2016-12-05 23:50:49 · 981 阅读 · 0 评论 -
RDD基础学习-[5]PairRDD关联函数基础
简介PairRDD间关联API,注意返回值类型 def join[W](other :Tuple2[K, W]) : Tuple2[K, Tuple2[V, W]] def join[W](other : org.apache.spark.rdd.RDD[scala.Tuple2[K, W]], numPartitions : scala.Int) : org.apache.spark.r原创 2016-12-07 00:28:13 · 353 阅读 · 0 评论 -
spark-DataFrame学习记录-[1]基础部分
DataFrame简介DataFrame:一个命名列方式组织的分布式数据集,类似于关系数据库中的一个表(1)可以由机构化数据文件得到(2)hive表(3)RDD转化department.json文件{"name":"Develoment Dept","deptId":"1"}{"name":"Personnel Dept","deptId":"2"}{"na原创 2016-12-04 13:17:56 · 694 阅读 · 0 评论 -
DataFrame转化成RDD-[1]反射法
简述DataFrame转化为RDD(1)反射推断包含特定类型的RDD的模式 条件:已知模式,即列和列的类型 特点:简单\简洁 备注:case class 不能和SparkContext同一作用域,也即定义再main 或者object外(2)通过一个编程接口来实现 条件:运行前不知道列和列的类型 特点:允许构造一个模式,在RDD上应用,不简洁people.txtM原创 2016-12-04 16:21:38 · 708 阅读 · 0 评论 -
DataFrame转化成RDD-[2]schema法
package com.dt.spark.main.DataFrameToRDDLearnimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.types.{S原创 2016-12-04 16:26:44 · 871 阅读 · 0 评论 -
spark-DataFrame学习记录-[3]以Json字符串构建RDD转DF
简介spark-DataFrame学习记录-[3]以Json字符串构建RDD转DF(1)字符串中$闭包自由变值(2)以Json字符串构建RDD转DF参考文档:http://spark.apache.org/docs/latest/sql-programming-guide.htmlpackage com.dt.spark.main.DataFrameLearnimport org.原创 2016-12-09 18:08:17 · 7721 阅读 · 0 评论 -
spark-DataFrame学习记录-[2]解决spark-dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)
【1】转帖部分转自:http://blog.csdn.net/sparkexpert/article/details/52837269如分别创建两个DF,其结果如下:val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B", 2), ("two", "A", 3), ("two", "B", 4))原创 2016-12-09 10:26:32 · 12610 阅读 · 0 评论 -
spark参数配置
http://colobu.com/2014/12/10/spark-configuration/http://blog.javachen.com/2015/06/07/spark-configuration.htmlhttp://spark-config.readthedocs.io/en/latest/http://hadoop1989.com/20转载 2017-01-18 15:35:13 · 235 阅读 · 0 评论 -
spark_API-collectAsMap
collectAsMap()返回hashMap包含所有RDD中的分片,key如果重复,后边的元素会覆盖前面的元素。/** * Return the key-value pairs in this RDD to the master as a Map. * * Warning: this doesn't return a multimap (so if you have multip原创 2017-02-04 14:02:15 · 1748 阅读 · 0 评论 -
spark-spark-SparkSQL的3种Join实现(转)
转载自:http://blog.csdn.net/asongoficeandfire/article/details/53574034引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,原创 2017-03-22 17:43:55 · 4723 阅读 · 0 评论 -
Spark累加器(Accumulator)陷阱及解决办法
多谢学习,转自:Spark累加器(Accumulator)陷阱及解决办法Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会转载 2017-03-14 10:29:25 · 666 阅读 · 0 评论 -
建立本地工程—本地学习与调试spark
IDE选用IDEA建立一个普通工程scalajdk与sdk安装JDK1.8.xscala-sdk 2.10.4file→projectStruct下载的spark-1.6.0-bin-hadoop2.6.0.tgz 文件 ,导入文件中的lib文件下的spark-assembly-1.6.0-hadoop2.6.0.jar修改pom文件,支持sparkSQL调制要想用运行原创 2017-03-17 19:18:55 · 344 阅读 · 0 评论 -
spark读hdfs(hive表)处理数据结果落hive表Demo
一、查询引擎测试压测demo实现逻辑很久没写spark工程了,近期需要一个查询引擎测试压测工具,以hive(HDFS)中每日落盘的查询来压测引擎性能,正适合用spark读hdfs,结果落hive。小结个小demo吧(1) 实现逻辑spark读取HDFS中存储的随机某天(以参数形式传入)的查询(hive_test.engine_queryjson表的第二列即为查询)以2秒为间隔向引擎提交查...原创 2019-01-08 21:20:49 · 4801 阅读 · 1 评论