大数据
文章平均质量分 87
Spark、Hive、Hadoop
一杯敬朝阳一杯敬月光
生命不息,代码不止
展开
-
Redis常用数据结构 笔记
目录字符串类型运算redis是基于key-value来保存数据的,key的类型是字符串类型,value的数据类型比较丰富,可以是:字符串、哈希、列表、集合、有序集合。字符串类型String类型既可以保存普通文字,也可以保存序列化的二进制数据【例如保存图片数据等等】。String类型最多可以保存512M的数据。存储、获取、删除的时候,key、value可以用""或''引起来也可以不用。存储:set key value获取:get key删除:del key...原创 2022-02-28 00:38:54 · 422 阅读 · 0 评论 -
Spark Core
Application User program built on Spark. Consists of adriver programandexecutorson the cluster.原创 2021-06-17 01:57:25 · 110 阅读 · 0 评论 -
读scala的reduce、Flod函数源码笔记
准备关于类型,在控制台运行可以方便观察到类型val one = 1原创 2021-06-03 22:53:57 · 597 阅读 · 0 评论 -
Hadoop之小文件
# Join概述MapReduceHIve:SQL on Hadoop SQL ==> MapReduce/Spark,通过explain查看SQL的执行计划 join select a.*, b.* from a join b on a.id=b.id1. 面试 + 描述如何使用MapReduce来实现join的功能2. 考察点: + MapR...原创 2021-05-30 03:12:05 · 419 阅读 · 1 评论 -
数据仓库Hive
Hive概述产生背景MapReduce编程的不便性 传统RDBMS人员的需求 HDFS上的文件并没有schema的概念 Hive是什么由Facebook开源,用于解决海量结构化日志的数据统计问题 构建在Hadoop之上的数据仓库(可以理解为数据存在在HDFS,可以通过MapReduce进行计算,提交在YARN上运行的) Hive提供的SQL查询语言:HQL 底层支持多种不同的执行引擎(MR/Tez/Spark,Hive构建在Hadoop之上,底层应该是MapReduce的执行...原创 2021-05-28 18:39:49 · 2647 阅读 · 10 评论 -
资源调度框架YARN
目录YARN产生背景YARN概述YARN架构详解YARN执行流程YARN环境部署报错YARN产生背景MapReduce1.x存在的问题 资源利用率 & 运维成本 解决方案:所有的计算框架运行在一个集群中,共享一个集群的资源,按需分配 ========================附========================MapReduce1.xmaster / slave架构:JobTracker / TaskTracker J..原创 2021-05-27 18:57:40 · 305 阅读 · 1 评论 -
分布式计算框架MapReduce
MapReduce概述源自于Google的MapReduce论文,论文发表于2004年2月 HadoopMapReduce 是 GoogleMapReduce 的克隆版 MapReduce优点:海量数据离线处理 & 易开发(相对于自己开发分布式框架来说的,现在的Spark和Flink要比MapReduce更简单) & 易运行(可以本地开发本地测试) MapReduce缺点:实时流式计算MapReduce编程模型MapReduce编程模型之Map和Reduce阶段...原创 2021-05-26 21:40:27 · 201 阅读 · 0 评论 -
分布式文件系统HDFS
HDFS概述HDFS概述分布式 commodity hardware,运行在廉价机器上 highly fault-tolerant,高容错 high throughput,高吞吐 large data sets,适用于大数据文件系统:Linux、Windows、Mac... 目录结构: C / 存放的是文件或者文件夹 对外提供服务:创建、修改、删除、查看、移动等HDFS是一个分布式的文件系统普通文件系统 VS 分布式文件系统...原创 2021-05-20 13:19:39 · 331 阅读 · 0 评论 -
初识Hadoop
目录Hadoop 概述Hadoop核心组件之HDFS概述Hadoop核心组件之MapReduceHadoop核心组件之YARNHadoop优势Hadoop发展史Hadoop生态圈Hadoop发行版选型Hadoop 概述Nutch、Hadoop创始人: Doug CuttingHadoop名字的由来:Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Hadoop和HIve等都是Apache社区的顶级项目,其顶级项目网址:xxx.apache..原创 2021-05-19 22:23:04 · 161 阅读 · 0 评论 -
scala 编程思想-笔记
字符串插值在字符串的前面放一个s,在想让Scala插值的标识符之前放置一个$ 任何以$为先导的标识符都会被转换成字符串 将表达式置于${}之间来计算和转换该表达式case class Sky(color: String)object Interpolation { def i(s: String, n: Int, d: Double): String = s"first: $s, second: $n, third: $d" def f(n: Int): Int = {n * 2...原创 2021-04-05 02:08:25 · 902 阅读 · 0 评论 -
Spark小白入门-简介(一)
Spark的特点Spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基于内存的计算 Spark是通用的 Spark的设计容纳了其他分布式系统拥有的功能:批处理,迭代式计算,交互查询和流处理;降低了维护成本 Spark是高度开放的 Spark提供了Python,Java,Scala,SQL的API和丰富的内置库 Spark和其他的大数据工具整合的很好,包括hadoop,kafka等 Spark历史诞生于2009年,加州大学伯利克分校RA...原创 2021-03-27 01:21:42 · 150 阅读 · 0 评论 -
Scala对象
目录类的定义和使用主构造器 and 附属构造器继承抽象类伴生类和伴生对象 & applycase classtrait类的定义和使用关于占位符,变量可以先用占位符占着(常量不可以哈),但是此时必须给出类型名,因为无法推断 关于访问范围,通过private []来约束,其中[]中表示范围,例如[this]本类可见,[包名]某包下可见object SimpleObjectApp { def main(args: Array[String]): Unit.原创 2021-02-17 16:49:00 · 568 阅读 · 0 评论 -
Scala函数 表达式
函数的定义和使用def 方法名(参数名:参数类型): 返回值类型 = { // 括号内的叫做方法体 // 方法体内的最后一行为返回值,不需要return}若有返回值,方法体内的最后一行为返回值,不需要return 若不要返回值,则返回值类型是Unit = 后面是有{}的但是我们只有一行,{}可以不写 若程序可以推断出返回值类型,则返回值类型也可以不写 scala的特别之处,方法没有入参,调用时()可以不写object FunctionApp {...原创 2021-02-16 02:59:09 · 597 阅读 · 0 评论 -
Sala入门
目录var vs valScala基本数据类型lazy在Scala中的应用var vs valval: 值 类比Java的final, 例如final int num= 100; val 值名称: 类型=xxx var:变量 var 变量名称: 类型=xxx Scala基本数据类型Byte/Char Short/Int/Long/Float/Double Booleanscala VS Java相同点 Boolean类型只能是true或者false.原创 2021-02-16 02:09:00 · 282 阅读 · 0 评论 -
大数据概述
大数据4V特征Volumn(数据量) Variety(多样性、复杂性) Velocity(速度) Value(基于高度分析的新价值)原创 2020-12-24 02:02:34 · 213 阅读 · 0 评论