大数据
weixin_32229529
就算牛逼,也还是谦虚点好
展开
-
kylin
1.1 Kylin定义==>雪花模型Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.2 Kylin架构架构分两层: 上面分析 // 下面计算OLAP Cube: 多维数据集 HBase读写速度很快特点...原创 2020-05-05 09:55:02 · 252 阅读 · 0 评论 -
oozie
Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。第2章 Oozie的功能模块介绍2.1模块 ==》实际上对应的3个 xml的文件Workflow :...原创 2020-05-05 09:52:08 · 151 阅读 · 0 评论 -
Azkaban
1.1 什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。==》Workflow:先...原创 2020-05-05 09:49:52 · 615 阅读 · 0 评论 -
sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快...原创 2020-05-05 09:47:59 · 162 阅读 · 0 评论 -
Flume
1.1 Flume定义Flume是Cloudera(云纪元(公司名))提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume,实时读取本地磁盘的数据==》flume是步署在日志产生的位置,本地磁盘 ,1.2 Flume基础架构Flume组成架构如图1-1所示:图1-1 Flume组成架构source收集采集数据==》chann...原创 2020-05-05 09:43:19 · 262 阅读 · 0 评论 -
kafka
1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。离线数仓中也用到。1.2 消息队列(Message Queue)1.2.1 传统消息队列的应用场景注册流程的案例分析:==》发短信比较慢(1) 同步处理,只有一个线程,发送短信后响应注册;对于并发量大的不适用;(2)异步处理: 把请求写到队列里面,异步线程发送短信具体作用: 异步,消峰,解...原创 2020-05-05 09:39:28 · 413 阅读 · 0 评论 -
Scala
尚硅谷大数据技术之Hive(作者:尚硅谷大数据研发部)版本:V1.3第1章 Hive入门1.1 什么是Hive===》数据分析,不存东西,要与mysql区分Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序所有的MR模...原创 2020-05-05 09:13:52 · 202 阅读 · 0 评论 -
Hive
尚硅谷大数据技术之Hive(作者:尚硅谷大数据研发部)版本:V1.3第1章 Hive入门1.1 什么是Hive===》数据分析,不存东西,要与mysql区分Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序所有的MR模...原创 2020-05-05 09:07:45 · 398 阅读 · 0 评论 -
MapReduce
1.1 MapReduce定义(分两个阶段,一个Map阶段,一个reduce阶段)1.2 MapReduce优缺点1.2.1 优点(更专注于业务逻辑,分布式程序与串行程序)优点:适合PB级以上的数据(庞大的数据),离线计算: 数据是静态的,不变的1.2.2 缺点1.3 MapReduce核心思想在大数据处理中,DAG计算常常指的是将计算任务在内部分解成为若干个子任务,将这些子任务之间的...原创 2020-05-05 09:05:49 · 288 阅读 · 0 评论 -
Hadoop(1)
2.3 Hadoop三大发行版本(有几个版本,要有个常识)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。Apache Hadoop官网地址:http://hadoop.apache.org/releases.htm...原创 2020-05-05 08:57:31 · 266 阅读 · 0 评论