![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
无影风Victorz
纸上得来终觉浅,绝知此事要躬行 https://github.com/vicotorz
展开
-
Hadoop学习笔记(七)(Spark编译与配置)
Spark源码编译:mvn编译命令:./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean packagespark内置编译方式,编译后可以部署#推荐使用:./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -P...原创 2018-10-26 21:26:16 · 289 阅读 · 0 评论 -
Hadoop学习笔记(八)(SparkSQL概述)
Hive: 类似于sql的Hive QL语言, sql==(转换)==>mapreduce 特点:底层是mapreduce,效率不高 改进:执行引擎更换:hive on tez、hive on spark、hive on mapreduceSpark:hive on spark ==> shark(hive on spark) shark翻译成RDD组件Sha...原创 2018-10-26 22:15:57 · 667 阅读 · 0 评论 -
实时流处理学习(四)- SparkStreaming
核心概念:(1) StreamingConext通过StreamingContext可以做定义输入源等事情。StreamingContext启动后不能重启 一个StreamingContext只能存活在一个JVM中 一个SparkContext可以用来创建多个StreamingContext(2) DStream(Discretiezed Streams)Spark...原创 2019-02-21 23:42:28 · 342 阅读 · 0 评论 -
实时流处理学习(五)- SparkStreaming 进阶(状态算子、写入mysql、window、黑名单过滤)
待深入......代码地址:https://github.com/vicotorz/sparkStreaming带状态的算子:Update StateByKey 状态的累加 如果使用了stateful的算子,就必须设置checkpoint(可供检查每个批次状态的临时文件)import org.apache.spark.SparkConfimport org.apache.sp...原创 2019-03-23 21:23:09 · 384 阅读 · 0 评论