![](https://img-blog.csdnimg.cn/20210201225457605.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据知识点
文章平均质量分 65
大数据知识点,涉及flink、Spark、Kafka、seatunnel等
Adobee Chen
这个作者很懒,什么都没留下…
展开
-
Flink 状态后端和RocksDB调优
1什么是状态后端?2状态后端分类?3 RocksDB大状态调优原创 2022-10-05 22:02:16 · 1689 阅读 · 0 评论 -
hive on tez 调优
etc/hadoop下的tez-site.xml调优 <?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>tez.lib.uris</name> <value>hdfs://mycluster/tez-0.原创 2021-08-18 15:42:53 · 546 阅读 · 0 评论 -
hive udf demo
package hive;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;.原创 2021-08-20 16:55:51 · 324 阅读 · 0 评论 -
hive on spark 趟坑
版本hive版本: 3.1.2spark版本:2.3.0(一开始用spark3进行测试,一直报拒绝连接,接下来会测试是否可以用spark3)hadoop版本:3.1.3配置配置好hadoop、spark、hive环境变量 spark测试集群正常后,将jars上传到hdfshadoop fs -mkdir /spark-jarshadoop fs -put jars/* /spark-jars删除hdfs上spark-jars中guava、hadoop、hive的jar包,并替原创 2021-08-27 19:19:42 · 624 阅读 · 0 评论 -
hive udtf demo
package hive;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspec.原创 2021-08-20 16:57:48 · 143 阅读 · 0 评论 -
hive基础(一) hive3.x安装
目录前置工作配置元数据配置JDBC访问hive方式hive版本:3.1.2hadoop版本 3.1.3前置工作0.配置好hadoop的环境变量1.解压完成后,在环境变量中添加hive内容 vim /etc/profile添加export HIVE_HOME=/opt/moudle/hive-3.1.2export PATH=$PATH:$HIVE_HOME/bin然后spurce /etc/profile2.解决jar包冲突mv..原创 2021-07-29 11:16:18 · 354 阅读 · 0 评论 -
hive jdbc/metastore客户端方式连接开启kerberos的hive集群api
pom依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>3.1.2</version></dependency><dependency> <groupId>org.apache.hive</group原创 2021-07-29 14:37:10 · 1686 阅读 · 4 评论 -
hive基础(二) hive操作大全
目录注:只是为了以后忘了,好翻。。。。。。。做个总结一) hive 操作1) hive -e2) hive -f3) 查看在hive中输入的所有历史命令4) hive运行日志修改二) hive参数配置三) hive数据类型基本数据类型集合数据类型1)复杂类型解释2)建表语句:3) 造数据 :text.txt4)load数据5) 访问方式hive类型转换四) DDL操作五) DML操作六) 查询七) 函数八)压缩和存储..原创 2021-07-29 16:15:50 · 2087 阅读 · 0 评论 -
Hive tez引擎安装
安装tez引擎1.解压tez压缩包mkdir teztar -zxvf tez-0.10.1-SNAPSHOT.tar.gz2.上传tez-0.10.1-SNAPSHOT.tar.gz到hdfshadoop fs -put /opt/tez/tez-0.10.1-SNAPSHOT.tar.gz /tez3.新建tez-site.xmlvim $HADOOP-HOME/etc/hadoop/tez-site.xml添加<?xml version="1.0" e原创 2021-08-04 11:28:57 · 346 阅读 · 0 评论 -
数据接入平台方案实现(游族网络)
架构离线功能实时功能Datax、自定义Flink、自定义SeaTunnel是否满足需求对比自定义 StarRocks sink插件SeaTunnel架构剖析_Adobee Chen的博客-CSDN博客批处理需要使用SeaTunnel的Spark引擎自定义StarRock Sink插件。插件需要继承...转载 2022-05-26 00:57:19 · 994 阅读 · 0 评论 -
seaTunnel 支持的插件
目录sourcehive sourcesinkclickhouse sinkTransformsourcehive source1.支持的引擎Spark 不支持 Flink2.选项名字 类型 必须 默认值 pre_sql string 是 - common-options string 是 - 3.配置3.1 必须配置env {...spark.sql.ca...原创 2022-04-11 22:19:24 · 2881 阅读 · 0 评论 -
SeaTunnel 高性能分布式数据集成平台
目录介绍为什么我们需要SeaTunnelSeaTunnel的特点SeaTunnel的工作流程SeaTunnel支持的插件ConnectorTrandform环境依赖介绍SeaTunnel是一个非常好用的超高性能分布式数据集成平台,支持海量数据的实时同步。每天可以稳定高效地同步数百亿数据,已应用于近百家企业的生产中。为什么我们需要SeaTunnelSeaTunnel会尽力解决海量数据同步中可能遇到的问题:数据丢失和重复 任务累积和延迟 低吞吐量原创 2022-03-30 10:19:55 · 5078 阅读 · 12 评论 -
SeaTunnel架构剖析
目录基础介绍seaTunnel配置文件由4个部分组成启动命令seatunnel覆盖了那部分?seaTunnel架构剖析seaTunnel的基石 ApiSeaTunnel coreSeaTunnel PluginsSeaTunnel 使用场景seaTunnel痛点基础介绍seaTunnel是一个分布式、高性能、用于处理海量数据(离线&实时)同步和转换的数据集成工具注:分布式体现在能运行在yarn or mesos or More离线..原创 2022-03-30 15:07:51 · 3559 阅读 · 0 评论 -
SeaTunnel2.1.1源码解析
目录一:启动脚本解析二:源码解析入口2.execute()核心方法一:启动脚本解析在 /bin/start-seatunnel-flink.sh#!/bin/bashfunction usage() { echo "Usage: start-seatunnel-flink.sh [options]" echo " options:" echo " --config, -c FILE_PATH Config file" echo ".原创 2022-04-29 16:58:10 · 1987 阅读 · 0 评论 -
Flink ExecutionGraph核心对象
前几篇文章分析了StreamGraph、JobGraph。这篇文章分析JobGraph的下一步ExecutionGraph的核心对象原创 2022-10-03 15:54:17 · 455 阅读 · 0 评论 -
Flink 资源管理
Flink涉及的资源分为两级:集群资源和Flink自身资源。集群资源管理的是硬件资源,包括CPU、内存、GPU等,由资源管理框架(yarn、k8s、Mesos)来管理,Flink从资源管理框架申请和释放资源原创 2022-10-03 15:47:46 · 1236 阅读 · 0 评论 -
Flink1.15源码解析之OperatorChain
本文首先总结在什么情况下算子能组成一个operate chain,并根据wordcount代码一步步进入真正判断isChainable进行源码解析(Flink 1.15.2版本)原创 2022-09-24 17:04:15 · 591 阅读 · 0 评论 -
Flink作业提交之StreamGraph构建源码解析
Flink作业提交之StreamGraph构建源码解析原创 2022-09-22 23:11:55 · 416 阅读 · 0 评论 -
Flink on Yarn 作业提交流程源码解析
本篇文章进行Per-Job模式的作业提交流程源码解析原创 2022-09-21 19:25:20 · 193 阅读 · 0 评论 -
Flink 作业提交
.Flink作业是如何提交到集群的?原创 2022-09-19 12:50:36 · 321 阅读 · 0 评论 -
Flink Unaligned Checkpoint
目前的Checkpoint算法在大多情况下运行良好,然而当作业出现反压时,阻塞式的Barrier对齐反而会加剧作业的反压,甚至导致作业的不稳定。原创 2022-08-30 16:22:33 · 701 阅读 · 0 评论 -
Flink Checkpoint
Flink Checkpoint原创 2022-08-29 18:23:30 · 420 阅读 · 0 评论 -
Flink CheckPoint和SavePoint的区别是什么?
Flink CheckPoint和SavePoint的区别是什么?原创 2022-08-15 11:22:52 · 162 阅读 · 0 评论 -
Prometheus+flink+grafana实现监控告警系统(一)
什么是普罗米修斯?prometheus 是一个开源系统监控和警报工具包,最初是在SoundCloud 上构建的。自 2012 年成立以来,许多公司和组织都采用了 Prometheus,该项目拥有非常活跃的开发者和用户社区。它现在是一个独立的开源项目,独立于任何公司进行维护。为了强调这一点,并澄清项目的治理结构,Prometheus于 2016 年加入云原生计算基金会,作为继Kubernetes之后的第二个托管项目。普罗米修斯的主要特点是1.易于管理Prometheus核心部分只..原创 2021-09-23 19:50:32 · 2000 阅读 · 0 评论 -
flink 常用的connetor有哪些
DataStream ConnectorskafkacassandraelasticsearchFile sinkJDBCredisTable & SQL ConnectorskafkaJDBCElasticsearchhbaseFileSystemhive原创 2021-04-21 13:01:15 · 122 阅读 · 0 评论 -
(六)flink DataStream API
flink DataStream APIEnvironmentsourcetarnsformsinkudfwindow时间语义与Waetermark状态编程和容错机制原创 2021-03-04 16:13:24 · 93 阅读 · 0 评论 -
(五)flink 运行架构
flink集群剖析Flink运行时由两种类型的进程组成: JobManager和一个或多个TaskManagers客户端不是运行时和程序执行的一部分,但它用于准备并发送dataflow(JobGraph)给Master(JobManager),然后,客户端断开连接(detached mode)或者维持连接(attached mode)以等待接收计算结果。客户端既可以作为触发执行的Java / Scala程序的一部分运行,也可以在命令行进程中运行./bin/flink run ...J..原创 2021-03-04 13:39:28 · 571 阅读 · 4 评论 -
(四)flink on yarn 模式总结
目录flink on yarn 模式部署flink on yarn 提交job流程yarn模式Session 模式Per-Job Cluster 模式flink on yarn 模式部署flink on yarn 提交job流程yarn模式Session 模式Session mode 模式需要先启动集群,然后再提交作业,接着会向yarn申请一块空间后,资源永远保持不变。如果资源满了,下个作业就无法提交,只能等到yarn中的其中一个总也执行完成后,释放了资源,原创 2021-03-03 18:06:30 · 361 阅读 · 1 评论 -
(三)flink 部署
flink 安装部署standslone模式[root@henghe-051 conf]# vim flink-conf.yamljobmanager.rpc.address 如果不是高可用,就配置相同的地址jobmanager.heap.size jobmanager 堆内存大小taskmanager.memory.process.size taskmanager的内存taskmanager.numberOfTaskSlots taskmanager中有多少...原创 2021-03-03 11:20:26 · 569 阅读 · 0 评论 -
(二) flink 快速入门之 wordcount scala/java 代码
目录flink wordcount scala代码pom配置批处理wordcount流处理wordcoutflink wordcount scala代码pom配置<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version>1.12.1</原创 2021-03-02 17:14:12 · 252 阅读 · 0 评论 -
(一)flink初识
目录flink初识什么是flinkflink特点1.事件驱动2.流处理3.分层APIflink初识什么是flinkApache Flink是一个框架和分布式处理引擎,用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 --来自官网介绍flink特点1.事件驱动2.流处理flink与spark之间对待数据的世界观是不同的在spark世界观中,一切都是由批次组成的,离线原创 2021-03-02 15:36:23 · 88 阅读 · 0 评论