![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 56
jinyonglu168
海阔凭鱼跃天高任鸟飞
展开
-
Spark SQL操作Hive数据库
本次例子通过scala编程实现Spark SQL操作Hive数据库!Hadoop集群搭建:[url]http://kevin12.iteye.com/blog/2273532[/url]Spark集群搭建:[url]http://kevin12.iteye.com/blog/2273532[/url][b]数据准备[/b]在/usr/local/sparkApps/SparkS...原创 2016-04-13 22:37:39 · 1595 阅读 · 0 评论 -
Spark RDD弹性表现和来源
hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备;基于数据集的操作不适应的场景:1,不适合于大量的迭代2,交互式查询重点是:基于数据流的方式 不能够复用曾经的结果或者中间计算结果;spark RDD是基于工作集的工作流和工作集的共同特点:位置感知,自动容错,负载均衡等...原创 2016-02-09 20:12:56 · 493 阅读 · 0 评论 -
Spark内核架构
1.在将spark内核架构前,先了解一下Hadoop的MR,Hadoop的MR分为Map和Reduce阶段,在Map阶段产生的中间结果要写回到磁盘,它和Reduce之间还有Shuffle操作,这个操作需要从网络节点进行数据拷贝,大量时间耗费在网络传输上,网络传输导致Hadoop的MR慢的原因之一,所以在很多情况下只适合离线计算。2.Spark的RDD(Resilient Distributed...原创 2016-02-07 12:24:56 · 95 阅读 · 0 评论 -
spark集群HA搭建
spark集群的HA图:[img]http://dl2.iteye.com/upload/attachment/0114/9089/eb35dece-fea3-3f5b-b200-07fa6406c463.png[/img]搭建spark的HA需要安装zookeeper集群,下面简单说明一下zookeeper集群的安装方法;我是将master1,worker1,worker2上...原创 2016-01-31 08:50:27 · 357 阅读 · 0 评论 -
Spark集群中WordCount运行原理
以数据流动的视角解释一下wordcount运行的原理[code="java"]package com.imf.spark.wordcountimport org.apache.spark.{SparkContext, SparkConf}/** * Created by vivi on 2016/1/27. */object WordCount {d...原创 2016-01-31 07:05:23 · 258 阅读 · 0 评论 -
eclipse开发spark程序配置在集群上运行
这篇bolg讲一下,IDE开发的spark程序如何提交到集群上运行。首先保证你的集群是运行成功的,集群搭建可以参考[url]http://kevin12.iteye.com/blog/2273556[/url]开发集群测试的spark wordcount程序;[b]1.hdfs数据准备.[/b]先将README.md文件上传到hdfs上的/library/wordcount/i...原创 2016-01-27 08:08:36 · 735 阅读 · 0 评论 -
eclipse开发spark程序配置本地运行
今天简单讲一下在local模式下用eclipse开发一个简单的spark应用程序,并在本地运行测试。1.下载最新版的scala for eclipse版本,选择windows 64位,下载网址:[url]http://scala-ide.org/download/sdk.html[/url][img]http://dl2.iteye.com/upload/attachment/0114/8...原创 2016-01-27 07:58:52 · 1207 阅读 · 0 评论 -
spark1.6.0搭建(基于hadoop2.6.0分布式)
本文是基于hadoop2.6.0的分布式环境搭建spark1.6.0的分布式集群。hadoop2.6.0分布式集群可参考:[url]http://kevin12.iteye.com/blog/2273532[/url]1.解压spark的包,tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz,并将其移到/usr/local/spark目录下面;在~/.bas...原创 2016-01-24 10:11:38 · 258 阅读 · 0 评论 -
SparkStreaming pull data from Flume
Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html本例子是做一个Spark Streaming 从flume中拉取数据的实验。[b]1.面配置flume[/b]1.首先下载必须的jar:在上面的连接中有。并将其拷贝...原创 2016-06-19 17:29:40 · 224 阅读 · 0 评论 -
Flume push数据到SparkStreaming
上节[url]http://kevin12.iteye.com/blog/2305946[/url]将flume的环境搭建好,并测试了flume的故障转移功能,这节编码实现Flume推送数据到Spark Streaming中。下面的例子我只在master1上配置flume,worker1,worker2不进行配置了。[b]1.配置[/b]master1上修改配置文件root@maste...原创 2016-06-19 15:16:07 · 231 阅读 · 0 评论 -
Spark Streaming 统计单词的例子
测试Spark Streaming 统计单词的例子[b]1.准备[/b]事先在hdfs上创建两个目录:保存上传数据的目录:hdfs://master1:9000/library/SparkStreaming/datacheckpoint的目录:hdfs://master1:9000/library/SparkStreaming/CheckPoint_data[b]2.源...原创 2016-06-19 12:29:38 · 408 阅读 · 0 评论 -
Spark SQL窗口函数
窗口函数又叫着窗口分析函数,Spark 1.4版本SparkSQL支持窗口分析函数,主要用于分组函数;理解窗口函数,可以参考blog去了理解:[url]http://www.cnblogs.com/CareySon/p/3411176.html[/url][b]数据准备(用空格隔开)[/b][code="java"]Spark 100Hadoop 65Spark 99Had...原创 2016-04-22 07:18:37 · 363 阅读 · 0 评论 -
Spark SQL内置函数应用
[b]简单说明[/b] 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果返回一个Column对象,而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性,...原创 2016-04-22 07:00:36 · 408 阅读 · 0 评论 -
Spark SQL on hive配置和实战
spark sql 官网:[url]http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext[/url]首先要配置好hive,保存元数据到mysql中,参考:[url]http://kevin12.iteye.com/blog/2280777[/url]然后配置S...原创 2016-03-26 18:40:52 · 451 阅读 · 0 评论