核心技术知识点
Spark : SparkSQL : Spark SQL自定义函数
开窗函数 : Spark Streaming
睡覺了
我现在能做的,便是以一段拙劣的文字来祭奠我那段流逝的岁月
展开
-
MapReduce_Hbase_知识点
1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:map 进行自定义逻辑的书写,将数据传给Shuffle第五步:Shuffle中的Partition 将数据key的哈希值与ReduceTask数量取余,余几就分到原创 2020-10-28 16:12:25 · 423 阅读 · 0 评论 -
大数据_知识点
1、在系统内添加一块硬盘,划分成两个分区,并实现开机自动挂载。vmwareworkstation中添加一块硬盘,linux中lsblk -f查看添加的硬盘,通过fdisk /dev/硬盘 对添加硬盘进行分区,使用mkfs -t -ext4对分进行格式化,更改/etc/fstab文件进行挂载2、本地资源库配置流程上传光盘镜像并挂载,备份原repo文件,并复制其中任一份修改baseurl为file:///镜像挂载地址,关闭检查,enabled设置为1,修改name以及[]中内容3、网..原创 2020-10-28 16:14:29 · 3124 阅读 · 2 评论 -
Spark 理论
目录1、Spark有几种部署方式?(重点)2、Spark提交作业参数(重点)3、简述Spark on yarn的作业提交流程(重点)4、请列举Spark的transformation算子(不少于5个)(重点)5、请列举Spark的action算子(不少于5个)(重点)6、简述Spark的两种核心Shuffle(重点)7、简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?(重点)8、Repartition和Coalesce关系与区别(重点)9原创 2020-05-26 14:28:19 · 3943 阅读 · 0 评论 -
大数据相关命令
安全模式 关闭hdfs dfsadmin -safemode leave查看历史命令history查看ps -ef | grep 名称 hive Zookeeper 开启与关闭全部 开启zkstart-all.sh 逐个节点关闭cd /export/servers/...原创 2020-04-24 10:36:43 · 7061 阅读 · 0 评论 -
Spark Streaming
目录什么是Spark Streaming什么是DStream阐明RDD、DataFrame、DataSet、DStream数据抽象之间的关系。SparkStreaming代码过程窗口宽度和滑动距离的关系0.8版本SparkStreaming集成kafka的差异Receiver接收方式Direct直连方式什么是Structured StreamingSt...原创 2020-04-22 11:11:15 · 7994 阅读 · 1 评论 -
Spark SQL 自定义函数、开窗函数
目录RDD、DF、DS三者之间的转化Spark SQL自定义函数开窗函数的作用开窗函数的分类聚和开窗函数排序聚和函数聚和开窗函数排序聚和函数RANK跳跃排序RDD、DF、DS三者之间的转化转换成RDD .rdd转换成DF .toDF()转换成DSRDD->DS .toDS()...原创 2020-04-22 11:03:22 · 8210 阅读 · 1 评论 -
SparkSQL
目录累加器的作用广播变量的作用SparkSQL基本介绍什么是SparkSQL?SparkSQL底层的数据抽象什么是DataFrame??什么是DataSet??SparkSQL查询数据的形态添加Schema的方式通过StructType指定Schema代码流程利用反射机制推断Schema代码流程累加器的作用累加器accumulators:累...原创 2020-04-22 11:01:53 · 7948 阅读 · 3 评论 -
Spark
目录什么是SparkSpark特点Spark运行模式Spark编写代码SparkCore什么是RDDRDD的主要属性RDD的算子分为两类:Rdd数据持久化什么作用?cache和Checkpoint的区别什么是宽窄依赖什么是DAGDAG边界Spark概念Spark执行任务的基本流程什么是Spark基于内存的,用于大规模数据处...原创 2020-04-22 10:59:32 · 7455 阅读 · 9 评论