大数据
文章平均质量分 82
二峰✔
八千里路云和月。莫等闲
展开
-
用Spark写入Mysql的特别注意事项
spark写入mysql的特别注意事项!!!原创 2022-12-19 19:32:22 · 550 阅读 · 1 评论 -
数仓理论(简单的总结一下)
一直想抽个时间想把学过的知识点再巩固一下,毕竟知识点这玩意儿,稍微不复习就会丢掉什么是数据仓库数据仓库是指具有主题导向、整合性、长期性与稳定性的数据群组,是经过处理整合,且容量特别大的关系数据库,用以储存决策支持系统所需的数据,供决策支持和数据分析使用。四大特性主题性:针对特定场景 抽象出数据 单独分析一个相关的领域集成性:数据仓库中的大部分数据源于传统的数据库。数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。稳定性:数据仓库的数据主要用于决策分析原创 2021-12-06 15:41:24 · 603 阅读 · 2 评论 -
Hive SQL语法总结
这几天一直在做与hive相关的工作,幸好以前有学过一点,上手起来也还挺快,现在有空,再系统温习一遍hive sql的语法吧前言Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的Hive SQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。H转载 2021-09-26 09:21:36 · 576 阅读 · 0 评论 -
flink的Savepoint
其实说到flink的checkpoint,那必然也得讲讲flink的savepoint什么是 Savepoint ? Savepoint 与 Checkpoint 有什么不同?Savepoint 是依据 Flink checkpointing 机制所创建的流作业执行状态的一致镜像。 你可以使用 Savepoint 进行 Flink 作业的停止与重启、fork 或者更新。 Savepoint 由两部分组成:稳定存储(列入 HDFS,S3,…) 上包含二进制文件的目录(通常很大),和元数据文件(相对较小)翻译 2021-09-06 11:30:12 · 5450 阅读 · 0 评论 -
Presto实现原理
转载美团的一篇技术文章。2014年发表的,年代还是有那么久远,哈哈前言Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Facebook也调研了其他比Hive更快的工转载 2021-09-06 09:07:10 · 323 阅读 · 0 评论 -
介绍一下flink的Watermark
前面这篇文章中有提到过watermark,相信很多小伙伴对这个东西还是不太熟,我们可以去官网上看看详情Watermark 策略简介为了使用事件时间语义,Flink应用程序都需要知道事件时间戳对应的字段,意味着数据流中的每个元素都需要拥有可分配的事件时间戳。其通常通过使用TimestampAssigner API从元素中的某个字段去访问/提取时间戳时间戳的分配与watermark的生成是齐头并进的,其可以告诉Flink应用程序事件时间的进度。可以通过指定WatermarkGenerator来配置wat翻译 2021-09-03 16:17:19 · 534 阅读 · 0 评论 -
flink的checkpoint部分源码阅读二(配置系列)
在前面我们从官网上了解了checkpoints的配置,为了加深一下大家的印象,所以我们这次从源码方面看看到底有哪些配置前言Flink 中的每个方法或算子都能够是有状态的。 状态化的方法在处理单个元素/事件 的时候存储数据,让状态成为使各个类型的算子更加精细的重要部分。 为了让状态容错,Flink 需要为状态添加 checkpoint(检查点)。Checkpoint 使得 Flink 能够恢复状态和在流中的位置,从而向应用提供和无故障执行时一样的语义。源码源码位置:在flink-streaming-原创 2021-09-03 15:18:55 · 723 阅读 · 0 评论 -
flink-认识各种算子及使用
前言用户通过算子能将一个或多个 DataStream 转换成新的 DataStream,在应用程序中可以将多个数据转换算子合并成一个复杂的数据流拓扑。接下来介绍部分算子的使用方法,大家直接复制粘贴就好,简单粗暴搭建IDEA的开发环境记得下载一个Lombok插件pom文件如下: <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>原创 2021-09-03 13:55:26 · 422 阅读 · 0 评论 -
flink的checkpoint源码部分阅读一(Checkpoint接口)
对于checkpoint的各种理论看的有点多,但是感觉都不太深刻,所以就从码云上下载源码想多了解一下前言原创 2021-09-03 11:09:57 · 436 阅读 · 0 评论 -
flink-作业调度
作业调度这篇文档简要描述了 Flink 怎样调度作业, 怎样在 JobManager 里描述和追踪作业状态调度Flink 通过 Task Slots 来定义执行资源。每个 TaskManager 有一到多个 task slot,每个 task slot 可以运行一条由多个并行 task 组成的流水线。 这样一条流水线由多个连续的 task 组成,比如并行度为 n 的 MapFunction 和 并行度为 n 的 ReduceFunction。需要注意的是 Flink 经常并发执行连续的 task,不翻译 2021-09-03 10:14:08 · 554 阅读 · 0 评论 -
flink的Checkpoint开启与配置
Key Default Type Descriptionstate.backend.incrementalfalse Boolean Option whether the state backend should create incremental checkpoints, if possible. For an incremental checkpoint, only a diff from the previous checkpoint is stored, rather than the com翻译 2021-09-02 15:22:12 · 14287 阅读 · 0 评论 -
HDFS的可靠性
前言相信大家对Hadoop不是很陌生了。Hadoop是由java语言所编写,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。我们这块主要来讲讲HDFS的可靠性:机架策略冗余副本策略安全模式心跳机制校验和回收站元数据保护快照机制一、机架策略HDFS 的"机架感知",通过节点之间发送一个数据包,来感应它们是否在同一个机架一般在本机架放一个副本,在其他机架再存放一个副本,这样可以防止机架失效时丢失数据,也可以提高带宽利用率二原创 2021-09-01 11:01:55 · 1242 阅读 · 0 评论 -
flink-WindowWordCount-demo(一)
文章目录前言一、pom二、上代码2.在服务器上启动命令3.启动项目前言Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。网上有很多WordCount的demo,但是好多都还是有点小错误(可能是因为版本的问题)或者是对新人来说感觉不太友好,所以自己去官网上找了一下原创 2021-08-20 15:07:00 · 335 阅读 · 0 评论