![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark学习笔记
文章平均质量分 55
小黄鸭and小黑鸭
小黄鸭的快乐生活 嘻嘻(●'◡'●)
展开
-
canal+kafka实践——实时etl
canal解析sql数据库的binlog并格式化数据,然后同步到kafka消息,可以用来实现实时etlyml:spring: application: name: canal canal: topic-prefix: etl_timely. destination: example: 0 username: password:...原创 2018-09-04 18:15:10 · 12867 阅读 · 1 评论 -
spark+kafka+hive
使用spark streaming消费kafka消息,并通过hql同步到hive中用到的pom: <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.sp...原创 2018-09-04 18:17:01 · 4004 阅读 · 0 评论 -
spark简介
学习教程:https://www.cnblogs.com/qingyunzong/category/1202252.htmlhttps://www.cnblogs.com/wonglu/p/5901356.htmlhttp://spark.apache.org/docs/latest/quick-start.html1、什么是spark目前按照大数据处理类型来分大致可以分为...原创 2018-09-03 19:05:57 · 253 阅读 · 0 评论 -
Spark SQL
教程:http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。Spark SQL的一个用途是执行SQL查询。Spark SQL还可用于从现有H...原创 2018-09-03 19:20:20 · 788 阅读 · 0 评论 -
Spark数据源
教程:http://spark.apache.org/docs/latest/sql-programming-guide.html#hive-metastore-parquet-table-conversion多种类型数据源加载和保存 // $example on:generic_load_save_functions$ Dataset<Row> users...原创 2018-09-03 19:20:45 · 816 阅读 · 0 评论 -
Spark Streaming
教程:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlpom:https://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22%20AND%20v%3A%222.3.1%22Spark Streaming是核心Spark...原创 2018-09-03 19:21:08 · 1451 阅读 · 1 评论 -
spark消费kafka消息
教程:http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.htmlpom:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</...原创 2018-09-03 19:21:36 · 1314 阅读 · 0 评论 -
checkpoint
设置checkpoint存储目录,从最新的checkpoint恢复:JavaStreamingContext ssc = JavaStreamingContext.getOrCreate(checkpointDirectory, ()-> createContext(ip,port,outputPath,checkpointDirectory));...原创 2018-09-03 19:22:03 · 356 阅读 · 0 评论