- 博客(427)
- 资源 (2)
- 收藏
- 关注
原创 Flink 技术与应用(一)
是一个开源的大数据处理框架,其起源可以追溯到一个名为 Stratosphere 的研究项目,旨在建立下一代大数据分析引擎,2010 年,从 Stratosphere 项目中分化出了 Flink 的前身。到了 2014 年,Flink 项目被捐赠给了 Apache 软件基金会,并在同年 4 月成为 Apache 的孵化项目,12 月成为 Apache 的顶级项目。
2024-07-25 20:48:29 1032
原创 Flink ui 本地flink ui 报错 {“errors“:[“Not found: /“]}
在学习flink 的过程中,伊始的flink 版本是1.17.2 报题目的错误 ,百思不得其解,尝试更替了1.19.1 然后就成功了 ,期间未做任何的修改。柳暗花明又一村,死磕到底的勇气,不断试错,新时代的爱迪生,努力寻找答案。ui 默认地址 : http://localhost:8081。
2024-07-10 09:02:23 487
原创 错误码:spark_error_00000004
2)减少单个executor的并发数(cores),以减少每个executor的负载和内存需求,例如,--executor-cores 2表示将executor的CPU设置为2核。2)减少单个executor的并发数(cores),以减少每个executor的负载和内存需求,例如,--executor-cores 2表示将executor的CPU设置为2核。2)可以尝试减少不必要的cache缓存操作,避免对比较大的数据进行广播(broadcast)操作,并对程序逻辑和底层数据进行优化,减少内存消耗。
2023-09-15 17:42:28 472
原创 离线数仓和实时数仓割裂的痛点,数据湖方案
2)实时加工可观测性,可运维性较弱。1)离线加工数据产出时效性不足。4)全天计算资源高峰集中在凌晨。流表二像性,可流式消费,可批查。3)批流双链路,双份资源开销。增量计算将凌晨计算打散到整天。数据入湖增量计算,提升时效。计算存储批流一体,可重跑。
2023-09-15 11:31:21 230
原创 数仓的主数据出数据指标是否有意义 ,单调递增的数据指标作为虚荣指标是否对公司的业务发展有实际的指导意义
例如,一些与用户行为相关的指标,如总活跃数、下载量、粉丝数等,虽然会随着时间的增长而单调递增,但是这些指标并不能传达出用户的任何信息,因此是没有指导意义的。因此,公司需要对这些指标进行深入分析,找出其背后的原因和影响因素,并制定相应的策略来改善和优化这些指标,从而推动公司业务的发展。数仓的主数据出数据指标如果能够指导公司的业务发展,那么这些指标是有意义的。然而,如果这些指标只是单调递增的虚荣指标,那么它们并不能对公司的业务发展提供实际的指导意义。
2023-09-13 10:57:00 157
原创 指标的业务负责人和技术负责人
业务负责人和技术负责人需要密切合作,以确保指标项目的成功实施。他们需要共同制定项目计划、沟通项目进展、解决问题,并确保项目成果能够真正为业务带来价值。他们与利益相关者沟通,确保指标与业务目标相一致,并负责推动项目的实施。技术负责人:负责确定如何收集、处理和报告指标数据,以及如何确保数据的。他们与技术团队合作,设计和实现技术解决方案,以满足业务需求。业务负责人:负责确定指标的。
2023-09-11 11:54:35 143
原创 在互联网行业,运营和量化的关系与区别
在互联网运营中,常常使用A/B测试、用户行为分析、渠道管理等方法和工具,来验证运营策略和优化用户体验。运营更注重日常的运营管理和实时的决策调整,关注点更倾向于用户的行为、产品的改进等近期效果。互联网企业通过收集和分析大量用户行为数据、市场数据等,借助数据科学和统计模型等方法进行预测、分析和决策优化。量化的目标是通过数据驱动的方式,提升运营的效率和精确度,从而实现更好的商业结果。综上所述,在互联网行业中,运营和量化在方法、工具、关注点和时间尺度等方面存在一定的差异。在互联网行业,运营和量化的关系与区别。
2023-07-28 14:04:54 251
原创 数据仓库和数据集市的边界
数据集市通常从数据仓库中选择和提供一部分的数据,经过适当的转换和整合,以支持特定业务部门的自主数据分析和决策。数据仓库是一个中心化的数据存储和管理系统,用于集成、存储和处理各种类型和来源的数据。数据仓库通常用于长期存储和分析历史数据,以支持企业级的决策分析和报告,它主要关注数据的存储和数据模型的设计。然而,数据仓库和数据集市之间的边界并不是固定的,可以根据具体的组织需求和业务场景进行调整和领域划分。数据仓库和数据集市是企业中常见的数据管理和分析架构组件,它们之间存在一定的边界,但也有相互关联和重叠的部分。
2023-07-26 20:49:42 142
原创 kafka flink es hive streaming
1.kafka create topic kafka-topics.sh --create --bootstrap-server 172.19.68.12:9092 --replication-factor 1 --partitions 1 --topic dev-yuqing-topic-test2.kafka producer kafka-console-producer.sh --broker-list 172.19.68.12.9092 --topic dev-yuqing-topic-t.
2021-09-09 11:07:57 381
原创 怎么跳过hive文件的第一行
烦人在数据上报的过程中,每个文件都是有文件头的,用hive 的建表语句跳过tblproperittes('skip.header.line.count'='1')
2021-09-01 11:20:43 425 1
原创 在做分区刷新报错时候,曾加set
set hive.msck.path.validation=ignore;MSCK REPAIR TABLE table_name;
2021-09-01 11:17:12 256
原创 kafka命令
启动:bin/kafka-server-start.sh config/server.properties --nohup创建topic:/bin/katopics.sh --create --zookeeper 172.16.29.231:2181 --replication-factor 1 --partitions 1 --topic topic1kafka查看topic和消息内容命令: /bin/kafka-console-consumer.sh --zookeeper localhost:..
2021-08-31 10:46:00 143
原创 hudi flink 集成error ,未解决
2021-08-07 10:29:55org.apache.flink.util.FlinkException: Error from OperatorCoordinatorat org.apache.flink.runtime.operators.coordination.OperatorCoordinatorHolder.notifySubtaskReady(OperatorCoordinatorHolder.java:426)at org.apache.flink.runt...
2021-08-07 17:22:54 982 5
原创 对 Hive 数仓表进行高效小文件合并
小文件如何产生 动态分区插入数据,产生大量的小文件,从而导致 map 数量剧增 reduce 数量越多,小文件也越多( reduce 的个数和输出文件是对应的) 数据源本身就包含大量的小文件小文件带来的问题 小文件会开很多 map,一个 map 开一个 JVM 去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能 小文件会给底层文件系统带来很大压力, 如在 HDFS 中,每个小文件对象约占150 byte,如果小文件过多会占用大量内存。这样 NameNode 内...
2021-08-02 09:58:30 409
原创 hive -f 如果需要传入多个 参数
hive -f my_file.sql --hivevar p1="1" --hivevar p2="2"
2021-07-14 18:52:27 645
原创 shell 的一些常用命令
day =`date --date='1 days ago' +%Y%m%d`soure soure_config.shstart_time=$(date "+%Y%m%d%H%M%S")define_list=()whie read one linedodefine_list[${#define_list[*]}]=`echo ${one line} awk -F " " '{print $1}'`done < txtfor(( j = 0 ;j<${#anewlis...
2021-07-13 17:55:30 132
原创 数据分析两个函数
lag()over() 在主键partition范围内,按照order by 计算上一条或是下一条的值,赋值到本条信息sum () over() 在主键parition范围内,按照order by 进行累加计算
2021-07-12 11:30:45 112
原创 hive 日期 loop 自动生成
需求描述:传入一个开始时间,start_dt,一个结束时间,start_end,使其能够将开始时间到结束时间之间所有的时间 都遍历出来。实现效果:hive sql 实现:–根据开始时间和结束时间生成时间段内所有时间select regexp_replace(date_add(dt,row_number() over(order by dt) - 1),’-’,’’) as dtfrom (select explode(split(rpad(‘2019-07-20’,(datediff(
2021-07-07 15:42:28 815
原创 hive 日期 十位 转为 八位
select date_format(date(current_timestamp()),'yyyymmdd')
2021-07-05 17:18:11 1713
原创 shell 下 时间 的傻狍子
start_time = '20202020202020'st=${start_time :0:8}format=`date -d $st '+%Y-%m-%s'`dt=$(date --date="${format} -1 year" "+%Y-%m-%s %H:%M:%S")
2021-04-22 21:01:37 111
原创 数据中台相关情况
是否支持多机房组成一个global集群,目的当一个机房物理容量不可扩容时,是否可以支持多机房的存储计算? 当IAAS层ready没问题时,产品安装时间大约多久?后续集群扩容(可以按规模给定时间,如扩容增加大约10台机器需花费时间多久?)和产品升级花费时间多久? 支持spark3了吗?如果社区flink,spark,hbase,hadoop有大版本升级,大数据平台滞后多久跟随升级? 使用产品时报错无法完成预期任务,如果是产品测的问题,多久能得到反馈解决? 产品是否支持模块化销售:基本大数据底座,数据治
2021-04-01 10:08:50 99
原创 superset sql lab instance error <------ 暂时没找到解决方案
Unexpected ErrorInstance <Query at 0x267853b90f0> is not bound to a Session; attribute refresh operation cannot proceed (Background on this error at: http://sqlalche.me/e/13/bhk3)
2021-03-31 15:37:06 187
原创 spark3.0 特性测试整理
目前的测试效果性能较2.4.6 提高有20%spark 3.0 性能改进项--简化内容可以参考 https://www.cnblogs.com/xing901022/p/13381167.html :spark3.0 的 发布时间 --2020年6月大版本的更新注定有许多性能优化方面的新特性,其中整个版本升级改进中spark sql占 46% ,spark core占 16% spark作为当前批量数据分析引擎,在SQL方面的优化主要四个方向7个方面:1.开发交互方向: 新的...
2021-03-01 18:28:04 336
原创 数据仓库高级工程师面试(最基本的内容)--解答
如何建设数仓,如何构建主题域 缓慢变化维 几种处理方式 什么是维度建模,星型模型与雪花模型的区别 数仓的好处 分层的好处 怎么做数据质量,怎么保证及时性和准确性 什么是维度,什么是度量 如何数据治理? 三范式 数据仓库vs数据中台vs数据湖 做过实时数仓吗,讲一下 ----------------------- 注:新浪也考过 awk输出并求和python:...
2021-02-18 10:01:14 1229 3
原创 hive ,tez , spark sql 小文件合并
hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令 :hive.merg...
2021-01-15 15:01:04 1114
原创 在执行Sparksql操作orc类型的表时抛出:java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException
案例 (spark version 2.4.6):create tmp.table_Y_x_h partitioned by (key string) stored as orc ;insert overwrite table tmp.table partition(key='ur_my_love') select * from tablex where 1=2 ;会在hdfs key path 下生成一个000000_00 size 大小为 0 的空文件 ;在spark-s...
2021-01-12 14:21:46 699
原创 spark2.4.6 版本下创建orc临时表错误
create tmp.table stored as orc as select * from tmp.tablesx;insert into tmp.table select * from tmp.tablesy;会造成 hdfs 文件的后缀名称不一致 ,造成 spark 引擎下部分数据不能读取的错误 ;解决方法 :1. 上述的sql 通过 union all 进行合并2.增加参数强制统一hdfs文件格式 :spark.sql.hive.convertMetast...
2021-01-12 14:12:00 422
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人