![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark学习之路
大数据的未来
这个作者很懒,什么都没留下…
展开
-
spark sql DataFrame操作
spark sql DataFrame操作官网地址(http://spark.apache.org/docs/latest/sql-programming-guide.html)1、Spark SQL是干什么用的吗?具体包括哪些呢?2、DataFrame有哪些操作呢?不多说,先实践后理论下面分别用Java语言及scala语言实现:import org.apa原创 2015-11-04 00:19:53 · 848 阅读 · 0 评论 -
spark入门
spark入门官网学习资料:http://spark.apache.org/docs/latest/quick-start.html1、val textFile = sc.textFile("F:\\spark-1.4.1-bin-hadoop2.4\\spark-1.4.1-bin-hadoop2.4\\README.md")2、textFile.count()3、textFil原创 2015-10-15 00:20:59 · 653 阅读 · 0 评论 -
Spark standalone模式安装
Spark standalone模式安装1、下载软件(http://www.apache.org/dyn/closer.lua/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.4.tgz)2、准备机器我这里5台机器 192.168.80.20(cloud1) 192.168.80.21(cloud2) 192.168.80原创 2015-10-17 19:35:30 · 635 阅读 · 0 评论 -
Spark RDD transformation操作
Spark RDD transformation操作1、创建RDDval nums =sc.parallelize(List(1,2,3))nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :212、将RDD转换为新的RDD 结果为(1,4,9)val squa原创 2015-10-17 20:17:24 · 535 阅读 · 0 评论 -
Spark控制ReduceTask数量
Spark控制ReduceTask数量所有key/value RDD操作都有一个可选参数,表示reduceTask的并行度1、通过查看http://192.168.80.20:4040/jobs/ val words = sc.parallelize(List(("spark",1),("hadoop",1),("hadoop",1),("hadoop",1)))words:原创 2015-10-17 20:56:52 · 4982 阅读 · 1 评论 -
spark RDD key/value关联操作
RDD key/value关联操作val left = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1)))val left = sc.parallelize(List(("scala",1),("hadoop",1),("spark",1)))关联2个RDD val joinOut = left join r原创 2015-10-17 21:48:56 · 2272 阅读 · 0 评论 -
RDD Action 显示
RDD Action 显示val nums = sc.parallelize(List(1,2,3,6,4,7,5))nums.collect //会引起客户端内存溢出//返回前k 个元素nums.take(2)//返回排序后的前k 个元素nums.takeOrdered(2)//返回第一个元素nums.first//返回随原创 2015-10-17 22:26:56 · 779 阅读 · 0 评论 -
spark 博客
spark 博客http://www.cnblogs.com/shishanyuan/p/4699644.html转载 2016-01-28 17:22:08 · 604 阅读 · 0 评论 -
spark sql介绍
spark sql介绍Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。最早来说,Hive的诞生,主要是因为要让那些不熟悉Java,原创 2015-11-03 22:03:57 · 2771 阅读 · 0 评论 -
spark RDD transformation操作
spark RDD transformation操作import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject TransformationOperation { def main(args: Array[String]) { // map() // filter()原创 2015-11-02 00:05:23 · 607 阅读 · 0 评论 -
spark wordCount单词计数及原理解析
spark wordCount单词计数及原理解析package cn.spark.study.coreimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WordCount { def main(args: Array[String]): Unit = { val conf原创 2015-11-01 20:24:19 · 1794 阅读 · 0 评论 -
spark开发
spark开发1、核心开发:离线批处理 / 延迟性的交互式数据处理?2、SQL查询:底层都是RDD和计算操作?3、实时计算:底层都是RDD和计算操作?原创 2015-10-31 20:46:35 · 653 阅读 · 0 评论 -
RDD基本特性
RDD基本特性1、什么叫RDD?2、RDD有怎么样的特性?1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上原创 2015-10-31 20:44:10 · 3910 阅读 · 0 评论 -
spark基本工作原理
spark基本工作原理spark基本原理是怎么样?包括哪些内容?1、分布式2、主要基于内存(一部分读取磁盘)3、迭代式计算下面用图来表示:原创 2015-10-31 20:28:22 · 2352 阅读 · 0 评论 -
spark streaming wordcount
spark streaming wordcountpackage com.spark.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Secondsobject WordCou原创 2015-11-06 09:14:38 · 405 阅读 · 0 评论 -
大数据实时框架原理
大数据实时框架原理Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。只不多,针对实时计算的特点,在RDD之上,进行了一层封装,叫做DStream。其实,学过了原创 2015-11-05 22:09:53 · 2555 阅读 · 0 评论 -
spark sql
spark sql package com.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextobject JSONDataSource { def main(args: Array[Strin原创 2015-11-05 09:40:54 · 439 阅读 · 0 评论 -
spark sql
package com.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.types.StructTypeimport org.apache.spar原创 2015-11-04 16:46:27 · 451 阅读 · 0 评论 -
spark安装配置
环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本,走了不少弯路。1. 安装 JDK 1.7yum search openjdk-develsudo yum insta转载 2014-08-21 15:28:27 · 633 阅读 · 0 评论