DT_大数据梦工厂第8课彻底实战详解使用IDE开发Spark程序

最新推荐文章于 2018-01-16 13:55:00 发布

chinsun_1

最新推荐文章于 2018-01-16 13:55:00 发布

阅读量896

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinsun_1/article/details/50492619

版权

DT大数据梦工厂_3000门徒专栏收录该内容

9 篇文章 0 订阅

订阅专栏

2016/1/9 课堂笔录

Scala开发IDE：IDEA和Eclipse。

开发系统：一般推荐Windows7 64位。

Eclipse开发

开发第一个Scala程序

第一步：修改依赖的Scala版本为Scala 2.10.x

Scala Library container: 2.10.6

第二步：加入Spark 1.6.0的jar文件依赖

JRE System Library: JavaSE-1.8开发

第三步：找到依赖的Spark Jar文件并导入到Eclipse中的Jar依赖；

第四步：在src下建立Spark工程包 com.dt.spark

第五步：创建Scala入口类

第六步：把class变成object并编写main入口方法

--

第1步：

创建Spark的配置对象SparkConf,设置Spark程序的运行时的配置信息，

例如说通过setMaster来设置程序要链接的Spark集群的Master的URL,

如果设置为local,则代表Spark程序在本地运行，特别适合于机器配置比较差的初学者。

//创建SparkConf对象

val conf = new SparkConf()

//设置应用程序的名称，在程序运行的监控界面可以看到名称

conf.setAppName("Wow,My First Spark App!")

//此时，程序在本地运行，不需要安装Spark集群

conf.setMaster("local")

//如果是集群时，通常不写conf.setMaseter方法，

//spark-submit 时指定参数, --master spark://Master:7077

第2步：SparkContext对象

SparkContext是Spark程序所有功能的唯一入口，无论采用Scala,Java,Python,R等必须要有一个SparkContext;

SparkContext核心作用：初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler,TaskScheduler,SchedulerBackend,

同时还会负责Spark程序往Master注册程序等。

SparkContext是整个Spark应用程序中最为至关重要的一个对象。

创建SparkContext对象，通过传入SparkConf实例来定制Spark运行具体参数和配置信息

val sc = new SparkContext(conf)

第3步：根据具体的数据来源（HDFS,HBASE,Local FS,BS,S3等）

RDD的创建基本有三种方式：根据外部的数据来源（如HDFS）、根据Scala集合、由其它的RDD操作数据会被RDD划分成为一系列的Partitions, 分配到每个Partition的数据属于一个Task的处理范畴。

val lines = sc.textFile("D://Big_Data_Software//spark-1.6.0-bin-hadoop2.6//READ.md",1)

第4步：对初始的RDD进行Transformation级别的处理，

例如map、filter等高阶函数等的编程，来进行具体的数据计算。

第4.1步：讲每一行的字符串拆分成单个的单词

val words = lines.flatMap { line => line.split(" ")}

第4.2步：在单词拆分的基础上对每个单词实例计数为1，也就是word=>(word,1)

val pairs = words.map {world =>(word,1)}

第4.3步：在每个单词实例计数为1 基础之上统计每个单词在文件中出现的总次数

对相同的key，进行Value的累计（包括Local和Reducer级别同时Reduce）

val wordCounts = pairs.reduceByKey(_+_)

wordCounts .collect. foreach(wordNumberPair => println(wordNumberPair._1 + " : " + wordNumberPair._2))

sc.stop()

//第8课作业：在Eclipse中写好广告点击排名的程序并测试

写一个Shell，wordcount.sh

usr/local/spart/spark-1.6.0-bin-hadoop2.6/bin/ spark-submit --class com.dt.spark.WordCount_Cluster --master spark://Master:7077 /root/Documents/SparkApps/ WordCount.jar

执行shell时可能没权限出错。

chmod 777 wordcount.sh

附上王老师个人名片信息

王家林中国Spark第一人

DT大数据梦工厂
新浪微博： http://weibo.com.ilovepains/
微信公共号：DT_Spark
博客：http://bolg.sina.com.cn/ilovepains
手机：18610086859
qq：1740415547
邮箱：18610086859@vip.126.com

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DT_大数据梦工厂第8课彻底实战详解使用IDE开发Spark程序

2016/1/9 课堂笔录Scala开发IDE：IDEA和Eclipse。开发系统：一般推荐Windows7 64位。Eclipse开发开发第一个Scala程序第一步：修改依赖的Scala版本为Scala 2.10.x Scala Library container: 2.10.6
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。