![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
亿万年前的星光
这个作者很懒,什么都没留下…
展开
-
Spark算子
Transformation 转换/变换算子:这种算子不触发提交作业,完成作业中间过程处理 Action 行动算子:这类算子会触发SparkContext提交Job作业,将数据输出Spark系统 Transformation算子 map算子(一对一输出) -将一个数据项通过自定义函数转变为一个新的元素 -参数为一个数据项 例: "A&a原创 2018-12-07 20:56:38 · 230 阅读 · 0 评论 -
Spark Streaming
1、Spark Streaming是一个流处理框架。可以实现高吞吐的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk,Flume,Twitter,ZeroMQ,Kinesis,以及TCP sockets,从数据源获取数据之后,可以使用函数(map、reduce、join和window等)进行复杂算法的处理,最后还可以将处理的结果存储到文件系统中(HDFS) 2、Spark ...原创 2018-12-11 20:25:38 · 170 阅读 · 0 评论 -
Spark集群搭建
一、操作系统设置 1、关闭防火墙 Chkconfig iptables off 2、 设置selinux 修改/etc/selinux/config文件中的SELINUX=disabled 二、配置集群hosts 在/etc/hosts文件中添加以下内容(IP地址和主机名以实际为准) 192.168.85.130 hadoop1 192.168.85.131 hadoop2 192.168.85....原创 2018-12-24 15:27:08 · 137 阅读 · 0 评论 -
SparkSQL
SQL(Structured Query Lanaguage 结构化查询语言) 是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存储数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。 常用的SQL框架(Hive、Impala、Presto、Shark、Drill、Phoenix等等) RDD、DataFrame和DataSet之间的区别 DataFrame是Sp...原创 2018-12-30 19:20:39 · 1256 阅读 · 0 评论