大数据
文章平均质量分 66
cuichunchi
java开发 后期 转向了大数据开发 有小伙伴想转大数据可以咨询我哟
展开
-
Flink 解析kafka avro格式
flink 对接kafka avro原创 2022-11-04 16:02:28 · 796 阅读 · 1 评论 -
编译Iceberg源码以及检出分支并编译
构建iceberg源码原创 2022-08-09 09:24:52 · 992 阅读 · 0 评论 -
Flink中allowedLateness介绍与测试
默认情况下,当watermark通过end-of-window之后,再有之前的数据到达时,这些数据会被删除。为了避免有些迟到的数据被删除,因此产生了allowedLateness的概念。简单来讲,allowedLateness就是针对event time而言,对于watermark超过end-of-window之后,还允许有一段时间(也是以event time来衡量)来等待之前的数据到达,以便再次处理这些数据默认情况下,如果不指定allowedLateness,其值是0,即对于watermark原创 2022-02-24 19:20:33 · 1345 阅读 · 0 评论 -
Tez调优参数总结
hive.tez.auto.reducer.parallelism=falsehive.tez.bucket.pruning=falsehive.tez.bucket.pruning.compat=truehive.tez.container.max.java.heap.fraction=0.8hive.tez.container.size=768hive.tez.cpu.vcores=-1hive.tez.dynamic.partition.pruning=truehive.tez.dyn.原创 2022-02-17 12:54:07 · 3537 阅读 · 0 评论 -
Hive调优参数总结
MR程序 优化参数1、客户端显示以及job任务名和优先级##打印表头set hive.cli.print.header=true;set hive.cli.print.row.to.vertical=true;set hive.cli.print.row.to.vertical.num=1;##显示当前数据库set hive.cli.print.current.db=true;##job任务名set mapreduce.job.name=p_${v_date};##job优先级se.原创 2022-02-17 12:53:29 · 1592 阅读 · 0 评论 -
Flink CDC 问题以及测试记录(持续更新...)
问题及测试集锦1、flink cdc 的 api兼容的ddl的结构变更吗?2、cdc 比如增量消费 然后 kill任务 再恢复?3、mysql cdc 设置了检查点,sink到kafka,重启作业,为啥全量的数据还是会重新发送到kafka原创 2022-01-13 18:52:09 · 1657 阅读 · 0 评论 -
Kafka 问题以及调优参数集锦
producer类参数:1、request.timeout.ms:配置控制客户端等待请求响应的最长时间。如果在超时时间过去之前未收到响应,则客户端将在必要时重新发送请求,或者在重试次数用尽时使请求失败。默认值:30000ms。注:该参数适合集群资源不高,带宽较低、且生产者频繁发送消息到topic。超时可能报以下错误信息,我在压测过程中发现的错误信息,并改为了60s,集群3台带宽4M(理想吞吐512KB/s).Expiring 7 record(s) for test_producer-0: 60原创 2022-01-05 22:03:46 · 609 阅读 · 0 评论 -
kafka压测多维度分析实战
设置虚拟机不同的带宽来进行模拟压测---------kafka数据压测-------------------1、公司生产kafka集群硬盘:单台500G、共3台、日志保留7天。 1.1 版本:1.1.0-----2、压测kafka。 2.1 使用kafka自带压测工具:bin/kafka-producer-perf-test.sh 命令参数解释: --num-records :总共发送多少条消息。...原创 2021-12-31 00:27:04 · 1128 阅读 · 0 评论 -
hive 添加字段,字段值错位问题
hive中在表结构中添加字段,并将字段指定到于业务库相对的位置:alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply add columns (storage_id bigint comment '仓库id') cascade; alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply change storage_id storage_id bigi...原创 2021-11-02 18:03:09 · 2464 阅读 · 1 评论 -
apache griffin安装编译及使用
1、编译报如下错:表示是没有这个kafka-schema-registry-client的jar包,从仓库中找不到。解决:从https://mvnrepository.com/artifact/io.confluent/kafka-schema-registry-client/3.2.0这个地址获取对应的版本或者直接从https://packages.confluent.io/maven/io/confluent/kafka-schema-registry-client/3.2.0/下载原创 2021-05-14 16:35:18 · 306 阅读 · 0 评论 -
spark sql的dataframe的动态传列名
第一:针对sparksql 的dataframe的动态自定义列名的解决方案正常写法:因为def toDF(colNames : _root_.scala.Predef.String*) : org.apache.spark.sql.DataFrame = { /* compiled code */ }所以如果作为入参传入,则解决方式以下:第二:调用select函数动态传入:正常写法:解决方案:...原创 2021-02-22 15:06:37 · 837 阅读 · 1 评论 -
Hadoop大数据Reduce阶段源码个人分析以及配置讲解
再次看hadoop源码收集每一步使用到的参数用于后期调优官网地址:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xmlhttps://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xmlhttps://hadoop.apache.org/docs/stable/had原创 2020-12-07 14:29:48 · 284 阅读 · 0 评论 -
hadoop中mapreduce源码个人记录
以下主要分析记录map阶段:org.apache.hadoop.mapred.MapTask$MapOutputBufferpublic static class MapOutputBuffer<K extends Object, V extends Object> implements MapOutputCollector<K, V>, IndexedSortable{//省略...public void init(MapOutputCollector.Co原创 2020-11-24 20:55:52 · 153 阅读 · 0 评论 -
hadoop中mapreduce的内存环形缓冲区个人讲解
map阶段的内存环形缓冲区相关参数配置:mapreduce.task.io.sort.mb:排序文件时需要使用的缓冲内存总量,默认100mapreduce.map.sort.spill.percent:阈值,当内存达到80%的io.sort.mb,则写入到文件。以下是个人图解,后期概念在补齐:...原创 2020-11-23 20:17:21 · 1332 阅读 · 0 评论 -
Hive中支持正则表达式根据需求输出指定的列
本人采用hive-1.1版本表中的数据以及列名如下:日常工作中我们需要用到两种方式:第一种:过滤调不需要的列名如下:SELECT `(id|100name)?+.+` from st;不需要id和100name的列名第二种:需要某些有相似性的列名如下:SELECT `.+name` from st;需要以name为后缀的所有列名...原创 2020-11-23 16:20:42 · 2005 阅读 · 2 评论 -
YARN 各个阶段配置参数总结,方便查找优化
YARN配置参数介绍通信地址类参数: 参数名称 默认值 说明 Yarn.resourcemanager.address 0.0.0.0:8032 RM对外的IPC地址 Yarn.resourcemanager.scheduler.address 0.0.0.0:8030 调度器对外的IPC地址 Yarn.r原创 2020-11-18 20:30:07 · 1235 阅读 · 0 评论 -
sqoop支持Hcatalog使用hcatalog参数后问题集锦
官网:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_purpose_4问题描述:sqoop1.4.6hadoop2.7.3hive-2.1.1本人编写的sqoop脚本如下:参数解释:--hcatalog-database指定HCatalog表的数据库名称。如果未指定,default则使用默认数据库名称。提供--hcatalog-database不带选项--hcatalog-table是错误的。这不是必需的.原创 2020-11-18 14:15:31 · 8410 阅读 · 6 评论 -
分享企业级HIVE数仓规范文档----对管理数仓很有帮助
数据仓库实施方案 文件编号:V0.1 生效日期: 编制人: 审核人: 批准人: 日期:2019.08.29 日期: 日期: 关键词 数据仓库数据模型 一、前言1.1.编写目的为了保证大数据平台整体可控性,实现脉络清晰的管理,提高开发效率和程序的可读性,降低程序编写...原创 2020-11-08 14:34:57 · 344 阅读 · 0 评论 -
CDH5.12.1集成TEZ-0.9.1
经过较长时间的痛苦编译过程中以及找了很多博客尝试,以下博客,本人尝试可用CDH集成Tez本人CDH5.12.1版本 hadoop版本是2.6.0以下是本人编译过后的tez包,高版本的CDH可用上面的链接完成编译,过程较为痛苦漫长。https://download.csdn.net/download/cuichunchi/13061602同版本的小伙伴可以拿来直接使用,安装上面的文章配置即可...原创 2020-10-27 17:54:23 · 174 阅读 · 0 评论 -
Hive on tez 运行报错集锦
执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok,在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中,打开客户端命令:执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion解决方案:因为CDH的hive-site.xml配置文件中没原创 2020-10-26 15:32:24 · 2026 阅读 · 0 评论 -
Hive 动态分区插入数据总结
Hive 动态分区插入数据总结1、问题描述执行以下sql导致reduce端OOM,分区数有485个按天分区,数据主要是存量数据一次性导入数仓中遇到的问题。服务器 :8核12G内存Map内存参数值:mapreduce.map.memory.mb=1024mapreduce.map.java.opts=-Xmx768m-XX:+UseConcMarkSweepGC;Reduce内存参数值:mapreduce.reduce.memory.mb=2048mapreduce.re.原创 2020-09-23 15:16:49 · 964 阅读 · 0 评论 -
Hive、Tez、Yarn资源问题总结以及优化参数
Hive、Tez、Yarn资源问题总结以及优化参数问题解决Hadoop版本:2.7.3Hive版本: 2.1.1Tez版本: 0.9.1问题描述:Hive集成Tez后,配置默认选择的执行引擎为tez,如下hive-site.xml配置截图。在服务器上直接执行hive命令,可以正常进入hive客户端,执行 set hive.execution.engine;当set hive.execution.engine=mr;以mr作为执行引擎时,执行一些聚合,统计类的..原创 2020-09-17 20:22:39 · 1417 阅读 · 0 评论 -
Hive的执行引擎Tez、spark出现的问题
Hive on Tez中,切换成mr引擎出现以下问题:hadoop版本为2.7.3tez版本为0.9.1因为tez安装目录中应该有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,hadoop中也有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,确认他们的版本是否相同,如果不同,会有这个问题;解决:将tez低版本的jar替换成2.7原创 2020-09-15 22:56:02 · 1771 阅读 · 0 评论