![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
无峥
这个作者很懒,什么都没留下…
展开
-
SQL-WINDOW
SQL高级功能SQL优化翻译 2020-05-26 13:25:12 · 483 阅读 · 0 评论 -
RDD、DataFrame、DataSet
在Spark中这三种数据格式十分重要,是使用Spark的基础中的基础。自己刚开始也一直比较模糊,所以写篇文章记录一下作为备用。DataSet算子合集整体算子RDD和DataFrame上图左侧的RDD[Person]虽然以Person为类型参数,但是对Spark框架来说它无法解析得到Person的内部具体结构,但是我们可以通过代码具体控制每个元素的转化。而DataFrame增加一个schema结构,里面记录了每列的字段类型和名称。所以:DataFrame=RDD[Row]+schema;DataF原创 2020-05-26 13:08:35 · 164 阅读 · 0 评论 -
Spark算子
Spark有许多常用算子,这里结合几篇文章做一下备份,方便自己后面快速查阅。本篇文章主要分析每个算子的应用方法,后面写到RDD、DataSet和DataFrame区别的时候会从算子的数据类型转变的进行进一步分析。Transformationmapmap的输入变换应用于RDD中的所有元素。scala> val array = Array(1,2,3,4)array:Array[Int] = Array(1, 2, 3, 4)scala>array.map(x=>(x,"spa原创 2020-05-22 12:58:32 · 307 阅读 · 1 评论 -
1、hadoop安装及其文件结构
Hadoop安装    安装过程亲测有效,在安装过程中根据自己的喜好和实际环境更改部分内容即可。1.安装jdk a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $>su centos ; cd ~ $>mkdir downloads $>cp /mnt/hdf原创 2018-09-20 15:42:17 · 263 阅读 · 0 评论 -
4.Hbase简介
在学习Hbase的过程中,查找到了一篇特别好的入门博客。但发现博客中介绍的hbase版本过低,还有一些错误,特别复制过来做一下更新。查看原文简介逻辑视图物理存储系统架构关键算法一、简介1.historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase p...转载 2018-10-11 15:37:25 · 145 阅读 · 0 评论 -
2.HDFS
Hadoop文件系统HDFSHDFS工作流程HDFS数据输入输出流程分析一、Hadoop文件系统    Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Hadoop文件系统接口由Java抽象类org.apache.hadoop.fs.FileSystem类定义。Hadoop的文件系统如下所示:观察上表的多个文件系统,原创 2018-09-21 20:16:20 · 212 阅读 · 0 评论 -
3.MapReduce
一、结构完成一个MapReduce过程需要以下几步,input、map、combine(可选)、shuffle、reduce和output。其中shuffle居于核心的位置。下面逐一来看这些过程。二、input & map 源码分析    使用HDFS上的文件作为MapReduc原创 2018-10-12 08:50:54 · 337 阅读 · 0 评论