spark
文章平均质量分 76
奔跑-起点
这个作者很懒,什么都没留下…
展开
-
scala类的定义
package com.ibfw/*** auther by bbaiggey*/import scala.beans.BeanPropertyimport scala.collection.mutable.ArrayBuffer/* * 类的定义 * field的getter和setter * construction详解 * 内部类介绍 */原创 2016-03-04 16:18:40 · 1174 阅读 · 0 评论 -
RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Sp转载 2016-08-26 15:37:30 · 833 阅读 · 0 评论 -
Spark DataFrames DataSet
Json文件内容:{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}-- 加载json文件转换成DataFramesscala> val df = sqlContext.jsonFile("/spark/json")warning: there were 1 deprecation原创 2016-08-26 17:11:47 · 737 阅读 · 0 评论 -
examples / Dataset Wordcount
https://docs.cloud.databricks.com/docs/spark/1.6/index.html#examples/Dataset%20Wordcount.htmlIn this example, we take lines of text and split them up into words. Next, we count the number of o原创 2016-08-26 17:29:30 · 1419 阅读 · 0 评论 -
读懂hadoop、hbase、hive、spark分布式系统架构
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深入系统内部以充分理解分布式系统架构和他们之间的关系本文结构首先,我们来分别部署一套hado原创 2016-12-11 18:16:25 · 4077 阅读 · 1 评论 -
最新的spark2.1.0 ReleaseNote[Release date: 18/Dec/16]
Sub-task[SPARK-1267] - Add a pip installer for PySpark[SPARK-10372] - Add end-to-end tests for the scheduling code[SPARK-14300] - Scala MLlib examples code merge and clean up[SPARK-14480] - Remove原创 2017-01-09 15:00:56 · 987 阅读 · 0 评论 -
Spark性能优化指南——高级篇【2】
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2017-02-17 11:43:57 · 436 阅读 · 0 评论 -
Spark之RDD
Spark RDD弹性分布式数据集【三大特点:分布式,高容错,弹性】原创 2017-03-03 15:12:51 · 563 阅读 · 0 评论 -
Launching Applications with spark-submit【使用脚本提交作业到集群5种部署模式--】
Once a user application is bundled, it can be launched using thebin/spark-submit script.This script takes care of setting up the classpath with Spark and itsdependencies, and can support different c原创 2017-03-03 18:28:15 · 634 阅读 · 0 评论 -
SparkStreaming自定义Receiver
接触spark已经有一些时间了,线上跑的spark的版本是基于spark1.5的版本,一次业务需求,要上实时处理,一起我们也搭建过一套基于storm的实时处理平台,后来数据平台重新搭建之后,我们上了spark,因为在spark生态栈里已经包含了realtime的处理模块,再加上我们的业务对实时要求并不是特别高,鉴于系统的维护成本,我们在技术选型上决定上SparkStreaming来进行实时处理。原创 2017-03-08 14:33:59 · 1106 阅读 · 0 评论 -
Spark性能优化指南——基础篇【1】
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的转载 2017-02-09 18:09:25 · 935 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统的使用
Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度原创 2017-03-14 19:08:40 · 641 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD:优点:1. 编译时类型安全 编译时就能检查出类型错误2. 面向对象的编程风格 直接通过类名点的方式来操作数据缺点:1. 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.2. GC的性能开销 频繁的创建和销毁对象,势必会增加GC importorg.apac原创 2016-08-26 15:09:29 · 1294 阅读 · 0 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据原创 2016-08-26 15:05:13 · 1179 阅读 · 0 评论 -
Spark的简介和在大数据领域的地位
spark的github地址--------->https://github.com/apache/sparkspark官网地址---------------〉http://spark.apache.org/Spark是什么Spark是一种通用的大数据计算框架。类似于传统的大数据处理技术例如:hadoop得MR、hive执行引擎,以及storm历史实时计算引擎。spar原创 2016-03-02 10:15:30 · 2983 阅读 · 0 评论 -
Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式
在进行离线大数据处理工程中,使用hive进行运算出现了瓶颈,由于文件太大,集群的block块采用的是默认128M没有进行调整,而且集群规模比较小,只有4个节点,机器配置:2台32core,内存14.5G 1台32core,内存30.3G 1台32core,内存46.1G 在进行分析过程中,有大量的left jion和group by 以及sum count HQL各种嵌套原创 2016-03-10 11:38:18 · 2789 阅读 · 0 评论 -
Spark HA 集群搭建【1、基于文件系统的手动HA 2、基于zk的自动HA】
1】环境准备1、环境Centos6.52、4个slaves3、hadoop集群搭建完成【见链接hadoop集群搭建】2】1、下载Zookeeper2、安装zookeeper见链接hadoop集群搭建原创 2016-03-14 18:04:58 · 869 阅读 · 0 评论 -
Spark核心编程原理
1、首先我们搭建好了spark集群2、客户端与spark集群建立连接,之后才能提交spark应用程序3、spark提交应用程序到spark集群上4、Spark与MapReduce最大的不同在于,迭代式计算模型:MapReduce,分为两个阶段,map和reduce,两个阶段完了,就结束了。所以我们在一个job里能做的处理很有限,只能在map和reduce里处理。Spark,计算原创 2016-04-25 16:22:55 · 1419 阅读 · 0 评论 -
踩坑事件:windows操作系统下的eclipse中编写SparkSQL不能从本地读取或者保存parquet文件
这个大坑... ....如题,在Windows的eclipse中编写SparkSQL代码时,编写如下代码时,一运行就抛出一堆空指针异常: val conf = new SparkConf().setAppName("GenreicSaveLoad").setMaster("local") val sc = new SparkContext(conf)原创 2016-06-07 10:43:02 · 1399 阅读 · 0 评论 -
Spark RDD中cache和persist的区别
通过观察RDD.scala源代码即可知道cache和persist的区别:def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) { throw new UnsupportedOp原创 2016-07-05 22:56:02 · 1185 阅读 · 0 评论 -
spark通过合理设置spark.default.parallelism参数提高执行效率
spark中有partition的概念(和slice是同一个概念,在spark1.2中官网已经做出了说明),一般每个partition对应一个task。在我的测试过程中,如果没有设置spark.default.parallelism参数,spark计算出来的partition非常巨大,与我的cores非常不搭。我在两台机器上(8cores *2 +6g * 2)上,spark计算出来的partit原创 2016-07-21 17:12:09 · 36337 阅读 · 1 评论 -
Spark OOM:java heap space,OOM:GC overhead limit exceeded解决方法
问题描述:在使用spark过程中,有时会因为数据增大,而出现下面两种错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError:GC overhead limit exceeded这两种错误之前我一直认为是executor的内存给的不够,但是仔细分析发现其实并不是executor内原创 2016-07-21 17:14:40 · 1758 阅读 · 0 评论 -
spark使用KryoRegistrator java代码示例
最近在使用spark开发过程中发现当数据量很大时,如果cache数据将消耗很多的内存。为了减少内存的消耗,测试了一下 Kryo serialization的使用代码包含三个类,KryoTest、MyRegistrator、Qualify。 我们知道在Spark默认使用的是Java自带的序列化机制。如果想使用Kryo serialization,只需要添加KryoTest类中的红色部原创 2016-07-21 17:15:19 · 760 阅读 · 0 评论 -
使用Spark core和SparkSQL的窗口函数分别实现分组取topN的操作
在spark 1.4及以上版本中,针对sparkSQL,添加了很多新的函数,进一步扩展了SparkSQL对数据的处理能力。本篇介绍一个强大的窗口函数 row_number()函数,常用于对数据进行分组并取每个分组中的TopN数据。示例数据如下:class1 90class2 56class1 87class1 76class2 88class1 95class1 7原创 2016-08-29 18:07:43 · 4400 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速原创 2016-08-26 15:03:49 · 1147 阅读 · 0 评论 -
executor-cores参数并未对vcores生效的原因分析
虽然目前大多数平台内置Application在提交时,只配置了–num-executors和–executor-memory参数,但是其他APP的开发者可能会配置–executor-cores参数。举个例子:./Spark-submit –master yarn-client –executor-cores 4 –num-executors 6 –executor-memory 10原创 2017-08-09 11:16:29 · 574 阅读 · 0 评论