Spark
璀璨下的一点星辰
这个作者很懒,什么都没留下…
展开
-
安装Spark standalone的集群模式
前期工作:在ubuntu环境下安装的。在三个节点上配置/etc/hostname。配置ssh,使之可以互相ssh登录。三个节点上都安装上jdk(我安装的是1.8版本的)。spark选择的是2.3.1的。 1.准备三个虚机:一个master节点,两个worker节点 2.在三台虚机上都下载安装上spark(/usr/soft目录下),在/etc/environment配置上SPARK_HOME(...原创 2018-08-31 11:41:33 · 920 阅读 · 0 评论 -
学习Spark笔记
1.Spark RDD(链接:https://www.cnblogs.com/wzj4858/p/8204395.html) (1)为什么会有Spark?因为传统的并行计算模型无法有效的解决迭代计算(iterative)和交互式计算(interactive);而Spark的使命便是解决这两个问题,这也是他存在的价值和理由。(传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优...原创 2018-08-24 17:07:53 · 1368 阅读 · 0 评论 -
IDEA编写wordcount,读取hdfs文件,运行在Spark集群例子
前期:已安装好hadoop集群和spark集群,hadoop2.6.5,spark2.3.1,jdk1.8. scala2.1.0 第一步:在idea编写scala程序,并且要打包(pom文件的build标签中配置好maven打包代码,可以定义主类也可以在提交的时候再定义){补充:可以在spark本地调试程序,新建一个application,添加代码主类,program arguments可以添...原创 2018-10-31 10:10:51 · 2666 阅读 · 0 评论 -
spark streaming 自带例子NetworkWordCount
环境:apache-maven-3.3.9 hadoop-2.6.0-cdh5.7.0 hbase-1.2.0-cdh5.7.0 jdk1.8.0_181 kafka_2.11-0.9.0.0 scala-2.11.8 spark-2.2.0-bin-2.6.0-cdh5.7.0 zookeeper-3.4.5-cdh5.7.0 spark自带的例子: https://gith...原创 2018-12-19 16:18:39 · 695 阅读 · 0 评论 -
Spark Streaming工作原理
工作原理: 粗力度 spark streaming接收到实时数据流,把数据按照指定的时间段切成一片片小的数据库,然后把小的数据库传给Spark Engine处理 细粒度: (1)driver:启动spark应用程序,构建StreamingContext (2)executor:启动receiver接收器,接收数据 (3)executor:接收input Stream,然后拆分不同b...原创 2018-12-19 16:43:06 · 517 阅读 · 0 评论 -
Spark中job stage task关系
转载自:https://www.cnblogs.com/wzj4858/p/8204411.html 1.1 例子,美国 1880 - 2014 年新生婴儿数据统计 目标:用美国 1880 - 2014 年新生婴儿的数据来做做简单的统计 数据源: https://catalog.data.gov 数据格式: 每年的新生婴儿数据在一个文件里面 ...转载 2019-02-11 14:28:51 · 233 阅读 · 0 评论