spark
在知识的海洋中遨游
github项目网址:https://github.com/lrn-white/meetingmanagement<br>CSDN博客:https://blog.csdn.net/qq_33283652
展开
-
spark学习记录(一、scala与java编写wordCount比较)
添加依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0</ve...原创 2018-12-29 10:03:16 · 214 阅读 · 0 评论 -
大数据实战练习(二、模拟数据)
一、集群启动1.启动zookeeper2.启动hdfs3.启动standalone./sbin/start-all.sh4.启动hive./hive --service metastore &二、编写代码1.模拟生成数据public class Data2File { public static String MONITOR_FLOW_ACTIO...原创 2019-01-16 09:28:27 · 1001 阅读 · 0 评论 -
spark学习记录(十三、SparkStreaming)
一、SparkStreaming简介SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,...原创 2019-01-09 20:47:41 · 155 阅读 · 0 评论 -
spark学习记录(十二、Spark UDF&UDAF&开窗函数)
一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.setAppName("udf"); ...原创 2019-01-08 20:54:07 · 232 阅读 · 0 评论 -
大数据实战练习(一、项目概览)
一、大数据处理框架二、项目背景 https://download.csdn.net/download/qq_33283652/10915786根据对车流量的监控进行数据清洗及分析三、项目代码https://download.csdn.net/download/qq_33283652/10915990https://download.csdn.net/download/q...原创 2019-01-14 15:09:32 · 1630 阅读 · 1 评论 -
大数据实战练习(三、卡扣监控)
一、项目需求统计正常的卡扣个数,异常的卡扣个数,正常的摄像头个数,异常的摄像头个数,异常的摄像头详细信息。正常卡扣个数:monitor_camera_info 基本关系表中卡扣与摄像头的关系与在monitor_flow_action 监控数据表中,卡扣与摄像头的关系完全对应上 异常的卡扣个数:monitor_camera_info 基本关系表中卡扣与摄像头的关系,在监控的数据表中一条都没...原创 2019-01-18 14:20:26 · 539 阅读 · 0 评论 -
spark学习记录(十一、Spark on Hive配置)
添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifactId> <version>2.4.0</vers...原创 2019-01-07 20:57:26 · 434 阅读 · 0 评论 -
spark学习记录(十、SparkSQL)
一、介绍SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用。DataFrame也是一个分布式数据容器。与RDD类似,然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌...原创 2019-01-07 17:26:14 · 261 阅读 · 0 评论 -
spark学习记录(八、广播变量和累加器)
一、广播变量public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("local").setAppName("JavaExample"); JavaSpar...原创 2019-01-07 10:52:37 · 138 阅读 · 0 评论 -
spark学习记录(六、基础知识)
1.术语解释2.SparkCore和SparkSQL知识点思维导图整理https://download.csdn.net/download/qq_33283652/10890863 3.RDD的宽窄依赖相同的key去同一个分区,但一个分区可以用不同的keyRDD窄依赖:父RDD与子 RDD partition之间的关系是一对一或多对一,例如rdd1与rdd2,rdd...原创 2019-01-03 13:45:11 · 134 阅读 · 0 评论 -
spark学习记录(九、MasterHA和Spark shuffle)
一、zookeeper配置MasterHA1.1修改conf下的spark-env.sh :export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop1:2182,hadoop2:2181,hadoop3:2181 -Dspark.de...原创 2019-01-06 19:43:28 · 1275 阅读 · 1 评论 -
spark学习记录(五、Spark基于资源调度管理器的提交模式)
一、Standalone(Spark自带)1.1 Standalone-client模式 提交命令:./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi /usr/local/spark-2.4.0-bin-hadoop2.7/examples/jars/spa...原创 2019-01-02 11:25:46 · 228 阅读 · 0 评论 -
spark学习记录(十四、kafka)
一、简介kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的server,负责处理消息读、写请求,存储消息,在kafka cluster...原创 2019-01-10 16:47:05 · 271 阅读 · 0 评论 -
spark学习记录(七、二次排序和分组取TopN问题)
1.二次排序例题:将两列数字按第一列升序,如果第一列相同,则第二列升序排列数据文件:https://download.csdn.net/download/qq_33283652/10894807将数据封装成对象,对对象进行排序,然后取出valuepublic class SecondSortKey implements Serializable, Comparable<Se...原创 2019-01-04 10:54:05 · 528 阅读 · 0 评论 -
spark学习记录(四、算子(函数))
1.Transformations转换算子Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。filter:过滤符合条件的记录数,true保留,false过滤掉。 map:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入一条,输出一条数...原创 2018-12-29 16:56:06 · 223 阅读 · 0 评论 -
spark学习记录(二、RDD)
一、概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD的五大特性:RDD是由...原创 2018-12-29 14:19:22 · 192 阅读 · 1 评论 -
spark学习记录(三、spark集群搭建)
一、安装spark1.上传压缩包并解压2.在conf目录下配置slavescp slaves.template slaves//在master机上配置worker节点hadoop2hadoop33.配置spark-env.shcp spark-env.sh.template spark-env.shexport SPARK_MASTER_IP=hadoop1...原创 2018-12-29 11:35:11 · 174 阅读 · 0 评论 -
Windows上配置Python+Spark开发环境
1.软件准备:下载资源合集:https://download.csdn.net/download/qq_33283652/11060712https://download.csdn.net/download/qq_33283652/11060746spark2.2.0https://archive.apache.org/dist/spark/ hadoop2.7.7https...原创 2019-03-25 14:21:54 · 572 阅读 · 0 评论