![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 77
不名一文
飞翔的菜鸟,keep moving
展开
-
docker学习笔记
docker学习原创 2021-12-11 17:59:40 · 59 阅读 · 0 评论 -
hive中udf编写
Hive中编写udf(User-defined function)需要继承UDF类或者GenericUDF类,至于UDF和GenericUDF类的区别,我们可以从GenericUDF类注释上找到答案 /** * A Generic User-defined function (GenericUDF) for the use with Hive. * * New Gener...原创 2018-05-23 09:04:05 · 4468 阅读 · 1 评论 -
数据仓库简介
一图解千愁1.概念1.1.数据仓库概念数据仓库之父比尔·恩门(Bill Inmon)给出数据仓库的定义如下:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)面向主题:面向抽象或者面向业务。比如仓储,速运、财务等业务域 集成:数据仓库相当于一个数.原创 2018-07-09 23:59:18 · 1138 阅读 · 1 评论 -
zookeeper简介
1.Zookeeper简介1.1 概述Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目Zookeeper从设计模式角度来理解:是一个基 于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册 的那些观察者做出相应的反应Zookeeper=文件系统+通知机制1.2 特点 Zookeeper特点Zookeeper:一个领导原创 2020-12-16 01:39:17 · 175 阅读 · 0 评论 -
hbase简介
1.HBase简介1.1 定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。1.2 HBase数据模型1.2.1逻辑结构逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map实际上逻辑表中的数据是稀疏的,有些cell没有值 稀疏数组参考1.2.2HBase物理存储结构以上即为稀疏数据.....原创 2020-12-19 18:50:37 · 31246 阅读 · 4 评论 -
Flink state&fault tolerant
1.状态(state)简介1.1状态概念在数据流中有一些算子只是一个单独的计算(map,flatmap),而有些算子需要记录跨多个事件的信息(window算子),那么称这个算子为为有状态的参考1.2状态分类➢ 总的说来,有三种类型的状态1.2.1算子状态(Operator State)Operator State(ornon-keyed state) is state that is is bound to one parallel operator instance..原创 2020-12-13 21:03:56 · 155 阅读 · 0 评论 -
Flink time&watermark&window
1.Time&WaterMark1.1时间分类 事件时间(event time):事件产生的时间,记录的是设备生产(或者存储)事件的时间 摄取时间(ingestion time):Flink 读取事件时记录的时间 处理时间(processing time):Flink pipeline 中具体算子处理事件的时间 默认情况下,使用的是processingtime;实际生产过程中,我们有些时候关注的是 event time如果想要使用event time,需...原创 2020-12-13 12:02:31 · 270 阅读 · 0 评论 -
flink datastream api
1.Flink 运行模型2.Flink 程序架构3.Environment4.Source5.Sink6.Transformation原创 2020-12-20 12:22:42 · 127 阅读 · 0 评论 -
flink部署&运行架构
Flink部署本节主要记录standalone和on yarn两种部署方式Standaloneconf 目录下调整文件主要关注如下文件flink-conf.yam通用配置jobmanager地址jobmanager.rpc.address: localhostjobmanager端口号jobmanager.rpc.port: 6123jobmanager jvm 堆内存jobmanager.heap.size: 1024mTaskManager堆内存taskm原创 2020-11-03 23:57:14 · 1319 阅读 · 0 评论 -
kafka简介
1.Kafka概述1.1 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于 大数据实时处理领域1.2 消息队列使用消息队列的好处:解耦 :允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 可恢复性 :系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。 缓冲:有助于控制和优化数据流经过系统的速度,解决生产消息和消.原创 2020-12-20 11:35:29 · 1339 阅读 · 0 评论 -
hive简介
1.HIVE基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能 本质是:将 HQL 转化成 MapReduce 程序Hive 处理的数据存储在 HDFS Hive 分析数据底层的实现是 MapReduce/Spark 执行程序运行在 Yarn 上1.2 Hive 的优缺点1.2.1 优点1) 操作接口采用类 SQ.原创 2020-11-30 18:41:12 · 526 阅读 · 0 评论 -
oralce&Hive join 简介& 谓词下推
在平时写sql时,join语句可能是使用频率最高语句之一。可是,你真的足够了解join语句吗。接下来以oracle和hive为例子,介绍join相关的基础知识1.Oracle1.1连接类型1.1.1nested loop join嵌套循环连接将驱动表(外表)和被驱动表(内表)进行join,读取外表的每一行,和内表进行比较操作,数据库一般将建有索引的表作为内表。适用范围:当数据集较小,访问列上有索引时例子: SQL> select /*+ leading(t1) use_n原创 2018-07-09 00:15:08 · 2705 阅读 · 0 评论 -
hive中udtf编写及使用
HIVE中udtf可以将一行转成一行多列,也可以将一行转成多行多列,使用频率较高。本篇文章通过实际案例剖析udtf的编写及使用方法和原理。阅读本篇文章前请先阅读UDF编写测试数据 drop table if exists test; create table test ( ind int, col string, col1 string ) ; inser...原创 2018-06-24 13:57:12 · 12993 阅读 · 2 评论 -
spark core简介
1.RDD概述1.1 什么是 RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合。1.2 RDD 的属性* A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partitioned原创 2020-11-24 00:27:15 · 359 阅读 · 0 评论 -
hive任务优化
hive是基于大数据开发的一组用于数据仓库的api,其主要功能是将HQL(HIVE SQL)转换成mapreduce执行。所以对hive的优化几乎等于对mapreduce的优化,主要在io和数据倾斜方面进行优化。本文主要在一下几个方面进行介绍合并小文件压缩文件join倾斜group by倾斜合并小文件map针对每一个文件产生一个或多个map任务,如果输入小文件过多,则会产生许多map任务处理每个小...原创 2018-06-25 14:24:10 · 1014 阅读 · 0 评论 -
Yarn简介
1.基本架构Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于操作系统上的应用程序YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如下图ResouceManager:处理客户端请求 监控NodeManger 启动或监控ApplictionMaster 资源的分配和调度NodeManager:管理单个节点上的资源原创 2020-11-17 09:32:22 · 1754 阅读 · 0 评论 -
hdfs简介
1.HDFS概述1.1HDFS产生背景及定义1.1.1产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件系统中的一种1.1.2定义HDFS(Hadoop Distributed File System) 是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,有很多服务器联合起来实现其功能,集群中服务器有各自的角色原创 2020-12-20 18:57:38 · 548 阅读 · 0 评论 -
学习笔记-目录
1.前言1.1Why为什么要学工作中主要是面向需求的sql工程师。但是本人对技术有着无尽的向往和卓越的追求,利用工作之余时间学习了常见的语言和大数据体系为什么要写笔记两方面原因:一者记录笔记加深印象;加上个人记性较差,方便后续查阅使用二者网上学习资料不成体系,此处方便后来者学习1.2How以下的语言(java、scala、python、react)主要根据网上学习教程查阅资料学习;以下大数据框架(hadoop、spark、flink等)主要根据学习视频、网上资料、及官原创 2020-11-24 00:25:44 · 480 阅读 · 2 评论 -
mapreduce简介
1.Mapreduce概述1.1定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上1.2优缺点优点MapReduce易于编程 良好扩展性 高容错性 适合PB级以上海量数据的离线处理缺点不擅长实时/流式计算 不擅长DAG计算1.3核心思想核心编程思想如下图...原创 2018-05-31 00:04:42 · 830 阅读 · 0 评论 -
大数据生态圈
原创 2020-06-17 01:37:55 · 218 阅读 · 0 评论