Spark学习笔记
Spark学习笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
Spark学习笔记(4)—— RDD 高级算子
1 启动集群启动 Spark集群/home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh启动 Spark Shell/home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/bin/spark-shell --master spark://node1:7077 --total-executo...原创 2018-10-18 14:59:14 · 464 阅读 · 0 评论 -
Spark学习笔记(3)—— Spark计算模型 RDD
1原创 2018-10-17 19:51:13 · 263 阅读 · 0 评论 -
Spark学习笔记(16)——Spark Streaming 整合Kafka
1 启动 zk(zookeeper-3.4.8)三个节点同时操作 zkServer.sh start2 启动 Kafka三个节点同时操作kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/config/server.properties后台启动方式kafka-server-start.sh /home/hadoop...原创 2018-10-25 10:07:27 · 302 阅读 · 1 评论 -
Spark学习笔记(17)——窗户函数
1 源码package windowimport mystreaming.LoggerLevelsimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}object WindowOpts { def main(args:...原创 2018-10-25 10:28:38 · 183 阅读 · 0 评论 -
Spark学习笔记(18)—— Elasticsearch 安装
1 解压[hadoop@node1 ~]$ lltotal 42708drwxrwxr-x. 9 hadoop hadoop 180 Oct 24 21:33 apps-rw-r--r--. 1 hadoop hadoop 27540442 Jun 10 2017 elasticsearch-2.3.1.tar.gzdrwxrwxr-x. 4 hadoop hadoop ...原创 2018-10-25 23:09:00 · 418 阅读 · 0 评论 -
Spark学习笔记(12)——SparkSQL
1 SparkSQL 介绍Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spa...原创 2018-10-23 18:43:38 · 352 阅读 · 0 评论 -
Spark学习笔记(19)—— 游戏日志分析
1 数据0 管理员登录1 首次登录2 上线3 下线1|2016年2月1日,星期一,10:01:08|10.51.4.168|李明克星|法师|男|1|0|0/8000000001|2016年2月1日,星期一,10:01:12|10.117.45.20|风道|道士|男|1|0|0/8000000004|2016年2月1日,星期一,10:01:27|10.51.4.168|李明克星|法...原创 2018-10-26 17:21:01 · 928 阅读 · 0 评论 -
Spark学习笔记(13)——Spark Streaming 案例
1 Spark Streaming 介绍Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、red...原创 2018-10-24 11:55:40 · 436 阅读 · 0 评论 -
Spark学习笔记(14)——Spark Streaming 数据累加的案例
1原创 2018-10-24 15:43:32 · 1768 阅读 · 0 评论 -
Spark学习笔记(3)—— Spark算子
1 Spark算子1.1 分为两类1.1.1 Transformation(转换)Transformation 延迟执行,它会记录元数据信息,当计算任务触发 Action 时才会真正开始计算。1.1.2 Action(动作)1.2 创建RDD的两种方式通过HDFS支持的文件系统创建RDD,RDD里面没有真正要计算的数据,只记录了元数据。通过Scala集合或者数组以并行化的方式创建R...原创 2018-10-17 16:33:06 · 591 阅读 · 0 评论 -
Spark学习笔记(11)—— spark任务提交,调试
1 源码package demoimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wc") //非常重要,通向Spark...原创 2018-10-22 14:23:32 · 329 阅读 · 0 评论 -
Spark学习笔记(5)—— 计算用户在小区停留时间最长的两个小区
1 数据源1.txt18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66,118611132889,20160327082500,16030401EAFB68F1E3CDF819735E1C66,118688888888,20160327170000,16030401EAFB68F1E3CDF819735E1C66,018...原创 2018-10-18 17:09:01 · 353 阅读 · 0 评论 -
Spark学习笔记(6)—— 网站访问次数统计
1 数据文件20160321101954 http://java.itcast.cn/java/course/javaeeadvanced.shtml20160321101954 http://java.itcast.cn/java/course/javaee.shtml20160321101954 http://java.itcast.cn/java/course/android.shtm...原创 2018-10-18 21:05:36 · 1955 阅读 · 0 评论 -
Spark学习笔记(1)—— Spark 介绍,集群安装
1 Spark 介绍2 Spark 集群安装下载地址https://spark.apache.org/downloads.html2.1 源码上传到集群解压2.2 修改配置文件2.2.1 spark-env.sh[hadoop@node1 ~]$ cd /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/[hadoop@node1 spa...原创 2018-10-16 12:31:07 · 344 阅读 · 0 评论 -
Spark学习笔记(2)—— Spark 和HDFS版 wordcount
1 启动 HDFS[hadoop@node1 ~]$ start-dfs.shStarting namenodes on [node1]node1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.6/logs/hadoop-hadoop-namenode-node1.outnode4: starting datanod...原创 2018-10-16 15:53:00 · 531 阅读 · 0 评论 -
Spark学习笔记(7)——分区实现
1 测试1package webcountimport java.net.URLimport org.apache.spark.{SparkConf, SparkContext}object UrlCountPartition { def main(args: Array[String]): Unit = { val conf = new SparkConf().setApp...原创 2018-10-19 11:48:37 · 255 阅读 · 0 评论 -
Spark学习笔记(8)——自定义排序
1 案例1第一种方式package mysortimport org.apache.spark.{SparkConf, SparkContext}object CustomSort { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("CustomSort").setMa...原创 2018-10-19 16:38:50 · 243 阅读 · 0 评论 -
Spark学习笔记(9)—— Spark IP位置查询
1 数据源ip.txt1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|119.306239|26.0753021.0.8.0|1.0.15.255|16779264|16781311|亚洲|中国|广东|广州||电信|440100|China|CN|113.280637|23.1251781.0.32.0...原创 2018-10-19 17:41:59 · 866 阅读 · 0 评论 -
Spark学习笔记(10)—— wordcount 执行流程分析
1 启动集群启动 HDFS start-dfs.sh启动 Spark 集群 /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh启动 Spark Shell /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/bin/spark-shell --master spark://no...原创 2018-10-22 10:37:26 · 333 阅读 · 0 评论 -
Spark学习笔记(15)——Spark Streaming 整合 Flume
1 flume 配置文件在 flume-env.sh 里配置 JAVA_HOME1.1 flume-pull.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type = spooldira1.sources.r1...原创 2018-10-24 19:36:48 · 280 阅读 · 0 评论