spark一千篇旅游日记
jrymos001
加油
展开
-
Spark一千篇旅游日记0003 之 RDD入门
学习参考书籍《spark核心技术与高级应用》RDD翻译为弹性分布式计算,在spark中所有的计算都依赖于RDD.一. 例如:import org.apache.spark.{SparkConf, SparkContext}/** * Created by fly on 2017/5/10. */ object testRDD { def main(args: Array[String])原创 2017-05-10 19:01:34 · 366 阅读 · 0 评论 -
spark一千篇旅游日记0009 之 spark小例子程序03
先看看一些常用的Transformation和Action操作吧,挺难记的,先别管,用到的时候再去查. 这是从spark官网上找的,我把它翻译了一下(保存可以查看高清图像): 本节的例子程序,需要一些RDD的基础知识: 关于RDD ,transformation和action的函数的区别可以参考: http://blog.csdn.net/m0_37681914/article/deta原创 2017-06-05 20:43:59 · 440 阅读 · 0 评论 -
Spark一千篇旅游日记0002 之 使用idea开发spark程序
学习书籍《Spark核心技术与高级应用》1.新建Scala项目后,应该导入jar 2.写Scala代码: 求”E:/spark-2.1.1-bin-hadoop2.6/README.md”文件中包含’a’和’b’分别出现的行数,import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import or原创 2017-05-10 15:12:20 · 507 阅读 · 0 评论 -
spark一千篇旅游日记0007 之 spark小例子程序01
在下载好的spark文件中,有一些程序示例,学习它们是非常好的入门方式 分别有Scala,Python,java,R语言对应的例子我们用Scala程序学习: 把整个example文件拷贝到我们项目的src下(对使用idea新建spark项目有疑问,或者运行时可能出问题的同学,可以参考 http://blog.csdn.net/m0_37681914/article/details/71531939原创 2017-05-29 16:16:10 · 626 阅读 · 0 评论 -
Spark一千篇旅游日记0001 之 简单程序
简单的RDD操作spark学习参考书籍 于俊老师的《Spark核心技术与高级应用》操作文件样本: /opt/spark/README.md1.获取数据val textf = sc.textFile("file:/opt/spark/README.md") 2.读取第一行:textf.first3.获取所有项的计数textf.count4.抽取含有”Spark”的子集textf.filter(line原创 2017-05-09 17:16:07 · 514 阅读 · 1 评论 -
jdk,Python,Scala,hadoop,mysql,spark安装
所有的安装包都放置在/opt/ 假设这是一台刚刚安装好的最简单版的centOS64位虚拟机: 一. 配置网络 vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0 TYPE=Ethernet ONBOOT=yes M_CONTROLLED=yes BOOTPROTO=static IPADDR=192.168.227.200 NETMA原创 2017-05-09 14:50:57 · 526 阅读 · 0 评论 -
spark一千篇旅游日记0006 之 DataFrame(二)
学习书籍《Spark核心技术与高级应用》一. 加载数据编程: 1.题目: 通过sqlContext.implictis._隐式转换一个RDD为DataFrame,并将DataFrame保存为Parquet文件,加载保存的Parquet文件,重新构建一个DataFrame,注册为临时表,供SQL查询使用2.代码:val sqlContext = new org.apache.spark.sql.S原创 2017-05-13 16:00:00 · 514 阅读 · 0 评论 -
spark一千篇旅游日记0005 之 DataFrame(一)
学习书籍《spark核心技术与高级应用》一.DataFrame的简单操作示例:val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("E:/spark-2.1.1-bin-hadoop2.6/examples/src/main/resources/people.json") df.原创 2017-05-11 20:53:36 · 409 阅读 · 0 评论 -
Spark一千篇旅游日记0004 之 作业执行解析
一. 一个spark程序细分成计算粒度的过程 1.从任务执行的角度看: task是spark中最小粒度的计算. 其中每一个绿色箭头就表示一个task 2.从集群的角度看: 细分成单个线程: 二. 集群和任务的关系图表: 比喻一下: 现在要做一个项目Application,有5台机器(称为worker Node1,2,3,4,5)可以做这个项目,而这个项目有3个子任务(称为原创 2017-05-11 17:23:23 · 319 阅读 · 0 评论 -
spark一千篇旅游日记0008 之 spark小例子程序02
本节主要讲一些spark自带的example,学习example程序,是提升spark编程能力不错的学习方式.BroadcastTestBroadcastTest.scala源码如下object BroadcastTest { def main(args: Array[String]) {//广播变量块的大小 val blockSize = if (args.length > 2) ar原创 2017-06-03 18:44:57 · 521 阅读 · 0 评论