Bigdatda-Spark
礼彬fly
这个作者很懒,什么都没留下…
展开
-
1-1、Spark 的local模式安装
软件:jdk1.8centos6.5hadoop2.6.0spark-1.5.2-bin-hadoop2.6.tgz1、解压,编辑spark-env.sh文件2、设置主节点IP地址:3、设置从节点IP地址:添加IP地址:4、启动:查看进程:5、启动spark-sh原创 2015-12-13 21:14:58 · 2308 阅读 · 1 评论 -
Spark的RDD简单操作
0、Spark的wc.notepackage RddApiimport org.apache.spark.{SparkConf, SparkContext}/** * hadoop * spark * tachyon * hadoop * hbase * spark *//** * Created by Administrator on 2016/4/2原创 2016-05-14 13:25:10 · 13146 阅读 · 0 评论 -
Spark MLlib聚类代码
部分数据:1.658985 4.285136-3.453687 3.4243214.838138 -1.151539-5.379713 -3.3621040.972564 2.924086-3.567919 1.5316110.450614 -3.302219-3.487105 -1.7244322.668759 1.594842-3.156485 3.1911373.16原创 2016-10-11 23:54:13 · 1135 阅读 · 0 评论 -
Spark MLlib决策树ID3代码
代码:package workStudy.MLlibimport org.apache.spark.mllib.tree.DecisionTreeimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkConf, SparkContext}/** * 决策时 -- ID3 */object原创 2016-10-13 00:21:06 · 1172 阅读 · 0 评论 -
spark广播变量和累加器
spark广播变量和累加器广播变量Spark中分布式执行的代码需要传递到各个Executor的Task上运行。对于一些只读、固定的数据(比如从DB中读出的数据),每次都需要Driver广播到各个Task上,这样效率低下。广播变量允许将变量只广播(提前广播)给各个Executor。该Executor上的各个Task再从所在节点的BlockManager获取变量,而不是从Driver获原创 2017-01-13 10:14:23 · 2680 阅读 · 1 评论 -
Spark的Kryo序列化注册
Spark的Kryo序列化注册Spark序列化可以将RDD序列化来减少内存占用。 对于优化网络性能极为重要spark.serializer=org.apache.spark.serializer.JavaSerializationSpark默认 使用Java自带的ObjectOutputStream 框架来序列化对象,这样任何实现了 java.io.Serializable 接口的对象原创 2017-01-13 10:32:02 · 5330 阅读 · 1 评论 -
Spark的一些配置总结
Spark的一些配置总结配置总结:集群内存总量:(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)参数调优建议:每个Executor进程的内存设置4G~8G较为合适。参数调优建原创 2017-01-13 10:55:46 · 15445 阅读 · 0 评论 -
Spark的cache和persist
Spark的cache和persist------------------------------------------------------------------------------------------------------cache调用的就是persist方法,默认存储级别只存储在内存中。cache和persist的区别:cache只有一个默认的缓存级别原创 2017-01-13 11:33:43 · 4361 阅读 · 0 评论 -
2-2、spark的union和join操作演示
spark的union和join操作演示union简介:通常如果我们需要将两个select语句的结果作为一个整体显示出来,我们就需要用到union或者union all关键字。union(或称为联合)的作用是将多个结果合并在一起显示出来。Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序; (Union All:对两个结果集进行并集操作,包括重复行,原创 2015-12-15 19:24:02 · 21836 阅读 · 4 评论 -
11-1、Spark通信模块
8、Spark通信模块8.1、通信框架AKKA先介绍一下RPC:RCP(Remote Produce Call)是远程过程调用,基于C/S模型调用。过程大致可以理解为本地分布式对象向主机发请求,不用自己编写底层通信本机。通过向服务器发送请求,服务器对象接受参数后,进行处理,再把处理后的结构发送回客户端。RPC不支持对象通信,支持对象传输。 Spark在模块通信使用的是A原创 2016-03-12 20:19:38 · 1693 阅读 · 0 评论 -
10-1、Spark I/O机制
7、Spark I/O机制7.1、序列化Spark通过集中方式实现进程通信,包括Actor的消息模式、Java NIO和Netty的OIO。 序列化是将对象转换为字节流,本质上可以理解为将链表存储的非连续空间的数据存储转化为连续空间存储的数组中。这样就可以将数据进行流式传输或者块管理。 序列化主要有以下两个目的:进程间通信:不同节点之间进行数据传输;数据持久化存储到原创 2016-03-12 20:15:51 · 1068 阅读 · 0 评论 -
9-1、Spark-Storage
6、StorageStorage模块负责管理Spark计算过程中产生的数据,包括基于Disk的和基于Memory的。用户编程时候cache将数据持久化,持久化的动作都是由Storage模块完成的,包括Shuffle过程中的数据,都是Storage模块管理的。RDD实现的是用户逻辑,而Storage管理用户的数据。在Driver端和Executor端,都会有Storage模块。原创 2016-03-12 20:13:18 · 649 阅读 · 0 评论 -
2-1、Spark的单词统计WC
1、输入数据:[root@spark0 bigdata]# pwd/usr/local/spark-1.5.2-bin-hadoop2.6/bigdata[root@spark0 bigdata]# more wcDemo1.txt hadoop hivesolr rediskafka hadoopstorm flumesqoop dockerspark原创 2015-12-13 22:55:06 · 3657 阅读 · 0 评论 -
1-2、Spark的standalone模式安装
提前安装好hadoop,我准备了两个节点,jdk和hadoop先安装好。我用的两个节点,电脑配置不行,3个节点演示能更好些1、解压 2、编辑文件:[root@spark0 conf]# cpspark-env.sh.template spark-env.sh[root@spark0 conf]# vim spark-env.shSPARK_MASTE原创 2015-12-13 21:30:59 · 1328 阅读 · 0 评论 -
3-2、Intellij IDEA开发、集群提交运行Spark代码
Intellij IDEA开发集群提交运行Spark代码 1、 右键项目: 选择倒第四个OpenModule Settings: 2、添加Spark依赖包:添加进去:3、进度: 4、编写Wc代码:新建一个Scala类,开始编写spark代码:import org.apache.spark.{SparkContext, SparkC原创 2015-12-15 15:26:20 · 4004 阅读 · 0 评论 -
3-1、Intellij IDEA搭建配置Scala环境、打包
Intellij IDEA搭建配置Scala环境1、配置Scala插件: 选择安装插件: 点击Install: 安装进度: 安装完插件之后,重启Intellij IDEA: 2、配置JDK: 把本地的JDK加载进去: 加载了Jdk和Scala: 3、搭建一个Scala项目:原创 2015-12-15 15:18:59 · 8752 阅读 · 0 评论 -
4-1、Spark简介
1、Spark简介1.1、Spark为何物?Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了大数据环境下处理的实时性,同时保证了高容错性和高伸缩性。Spark于2009年诞生于加州大学伯克利分校AMPLab。现在已经成为Apache软件基金会旗下的顶级开源项目。 Spark历史与发展:2009年:Spark诞生于AMPLab;2010年:原创 2016-03-12 10:53:27 · 1221 阅读 · 0 评论 -
5-1、Spark环境搭建
2、Spark环境搭建2.1、官网下载Spark官网地址:http://spark.apache.org/ 下载后如下: Linux上安装部署SparkJdkScalaSSHHadoopSpark2.2、安装模式Local模式(学习、测试之用) Standalone模式(内置的资源管理和调度框架)Mesos(Apache)Ya原创 2016-03-12 15:15:34 · 1780 阅读 · 0 评论 -
6-1、Spark RDD
3、RDD与Hadoop不同,Spark一开始就瞄准性能,将数据放在内存,在内存中计算。用户将重复利用的数据缓存在内存中,提高下次的计算效率,因此Spark尤其适合迭代型和交互型任务。3.1、RDD为何物RDD(resilient distributed dataset,RDD)。RDD提供了一种高度受限的共享内存,RDD是只读的、分区记录的集合。RDD是Spark的核心数原创 2016-03-12 15:31:05 · 1407 阅读 · 1 评论 -
7-1、Spark-Scheduler
4、SchedulerScheduler(任务调度)模块是Spark Core的核心模块之一。Spark对于DAG(Directed Acyclic Graph,有向无环图)的实现以及不同执行阶段的划分和任务的提交执行。任务调度,即组成应用的多个Job之间如何分配计算资源。 4.1、整体模块概述4.1.1、DAGScheduler和TaskScheduler任务调度模块原创 2016-03-12 18:04:17 · 796 阅读 · 0 评论 -
8-1、Spark-Shuffle机制
5、Shuffle机制Spark的Shuffle是把一组无规则的数据尽量转换为一组具有一定规则的数据,Spark的Shuffle和MapReduce的Shuffle思想相同,在实现细节和优化方式上不同。Shuffle就是包裹在各种需要重分区的算子之下的一个对数据进行重新组合的过程。 5.1、Shuffle阶段Shuffle分为两个阶段:Shuffle Write和Shuffle原创 2016-03-12 18:18:37 · 906 阅读 · 0 评论 -
spark的aggregateByKey简单用法
问题:求key对应唯一value的数据, 如果用groupByKey或reduceByKey很容易就做出来了,现在用aggregateByKey求解一下。输入数据:asdfgh 546346retr 4567asdfgh 7685678ghj 2345asd 234hadoop 435ghj 23454asdfgh 54675asdfgh 546759878原创 2017-07-25 22:23:07 · 1620 阅读 · 1 评论