![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 72
csdn-延
好记性不如个烂笔头
展开
-
数据字典和数据目录的含义及区别
数据目录通常采用规范化的语言表达数据流程图中的各组成部分,以便用户能够更方便地查找和利用数据。它可以包含数据的元数据信息,如数据的来源、数据的含义、数据的质量等,以帮助用户更好地理解和利用数据。数据字典和数据目录在大数据中都是用于描述和管理数据的工具,但它们的目的和功能略有不同。在实现方式上,数据字典通常是由数据库管理系统(DBMS)自动更新的,因为数据字典中的信息是与数据库的结构和属性密切相关的。综上所述,数据字典和数据目录都是大数据中重要的数据管理工具,但它们的目的和功能略有不同。原创 2023-10-29 12:42:34 · 443 阅读 · 0 评论 -
大数据之Yarn和Spark配置与说明
Executor关闭后,其输出的文件,也就无法供其他Executor使用了。在将NodeManager的总内存平均分配给每个Executor,最后再将单个Executor的内存按照大约10:1的比例分配到spark.executor.memory和spark.executor.memoryOverhead。此处的Executor个数是指分配给一个Spark应用的Executor个数,Executor个数对于Spark应用的执行速度有很大的影响,所以Executor个数的确定十分重要。转载 2023-08-20 21:35:49 · 345 阅读 · 0 评论 -
Hadoop大数据平台数据迁移方案(跨集群)
保证数据必须TextFile文件格式(Orc等压缩文件格无用),可以将压缩表数据插入非压缩表中insert ****** select ******]上述命令会把nn1集群的/source目录下的所有文件或目录展开并存储到一个临时文件中,这些文件内容的拷贝工作被分配给多个map任务,[服务器2]创建Hive外表,其中外表的(location)地址远程指向迁移地址[服务器1]数据的(location)地址,在我们的Hive中创建Hive外部引用表,将引用路径指向需要迁移的服务器地址。转载 2023-08-15 22:12:49 · 688 阅读 · 0 评论 -
从大数据平台CDP的架构看大数据的发展趋势
随着各行各业数字化转型的推进,当前企业的业务系统,上云是一大趋势,且上云的最终形态,是多个公有云和私有云的混合部署形态,即混合云。随着组织在云环境中采用基于 Hadoop 的大数据部署,他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是 CDP 平台的一部分,下图展示了 CDP 平台的功能地图。其中:CDH和HDP都重点涵盖了数据工程和数据仓库场景,同时CDH对AI,ML和数据科学场景有侧重,而HDP对IoT数据摄取和流场景有侧重。已经不仅仅是最早概念的Hadoop,转载 2023-08-15 20:09:55 · 1045 阅读 · 0 评论 -
如何使用Sentry实现Hive/Impala的数据脱敏
1.环境准备及描述2.创建脱敏视图3.权限分配及测试4.总结。转载 2023-08-09 15:33:28 · 207 阅读 · 0 评论 -
Hive常见的压缩格式
完成对Hive表的压缩,有两种方式:配置MapReduce压缩、开启Hive表压缩功能。当然为了方便起见,Hive中的特定表支持压缩属性,自动完成压缩的功能。其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4,在不同的测试场景中,会有差异,这仅仅是一个大概的排名情况。从压缩性能上来看:lz4 > lzo > snappy > deflate > gzip > bzip2,其中lz4、lzo、snappy压缩和解压缩速度快,压缩比低。转载 2023-08-02 00:28:45 · 376 阅读 · 0 评论 -
hive视图与物化视图使用详解
对比两者的查询过程不难看出,第一个查询执行了map-reduce任务,耗时2秒多,第二个查询,没有执行map-reduce任务,由于会命中物化视图,重写query查询物化视图,查询速度会加快(没有启动MR,只是普通的table scan),查询时间提升了一倍多,这要是在数据量非常大的情况下性能将是巨大的改善;从上面的内容我们知道,物化视图创建后即可用于相关查询的加速,即:用户提交查询query,若该query经过重写后可以命中已经存在的物化视图,则直接通过物化视图查询数据返回结果,以实现查询加速。转载 2023-08-01 23:25:35 · 1710 阅读 · 0 评论 -
实时数仓建设核心
接着需要新起一个任务,从原来比较早的一个时间节点去消费 Kafka 上的数据,然后当这个新的任务运行的进度已经能够和现在的正在跑的任务齐平的时候,你就可以把现在任务的下游切换到新的任务上面,旧的任务就可以停掉,并且原来产出的结果表也可以被删掉。对于实时数仓来说,怎么去解决数据重算问题?实时明细层:在明细层,为了解决重复建设的问题,要进行统一构建,利用离线数仓的模式,建设统一的基础明细数据层,按照主题进行管理,明细层的目的是给下游提供直接可用的数据,因此要对基础层进行统一的加工,比如清洗、过滤、扩维等。转载 2023-07-31 00:37:25 · 84 阅读 · 0 评论 -
Hive经典面试题之连续N天登录
在日常工作进行数据的ETL或者面试时,经常遇到类似的问题,比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题,思路基本都是一样的。本文将介绍常用的两种解决方案。2.用登录日期与rn求date_sub,得到的差值日期如果是相等的,则说明这两天肯定是连续的。3.根据id和日期差date_diff分组,登录次数即为分组后的count(1)1.先把数据按照用户id分组,根据登录日期排序。以"统计连续登录天数超过3天的用户"为需求。注:以下用到的SQL函数,建议参考。转载 2023-07-31 00:30:28 · 146 阅读 · 0 评论 -
UDF和UDAF、UDTF的区别
简单说就是输入一行输出一行的自定义算子。是大多数 SQL 环境的关键特性,用于扩展系统的内置功能。原创 2023-07-31 00:25:13 · 480 阅读 · 0 评论 -
Flink On Yarn模式部署与验证
该模式下分为2步,即使用yarn-session.sh申请资源,然后 flink run提交任务。原创 2023-07-30 23:57:42 · 549 阅读 · 0 评论 -
Apache Doris和StarRocks的区别
StarRocks采用了列式存储模型,并利用Hadoop的分布式计算框架来管理数据和提供高性能的数据处理。是一个分布式的列式存储系统,它的设计目标是提供大规模数据处理的可靠性和高性能。:Doris提供高性能的数据处理能力,而StarRocks利用Hadoop的分布式计算框架来处理数据。:Doris使用列式存储模型,而StarRocks使用Hadoop中的HDFS文件系统来存储数据。:Doris是一个独立的分布式存储系统,而StarRocks是建立在Hadoop之上的。原创 2023-07-30 23:49:26 · 3937 阅读 · 0 评论 -
Flink 流批一体在 Shopee 的大规模实践
所以我们一直想优化这个流程,在最近发布的 1.16 中,支持了接入外部 log 的功能,我们针对日志较少的 Batch 任务,直接使用该特性跳转到 yarn 的 history log,十分方便查看问题 Task 的全量日志。我们最后使用了自己开发的 SlotGroup 级别的资源配置,整体思路是不同的 SlotGroup 申请不同规格的 TM,Slot 依然是均分 TaskManager 的资源,但可以通过为不同的 Operator 设置不同的 SlotGroup,进而设置不同的资源量。转载 2023-07-30 23:33:13 · 62 阅读 · 0 评论 -
实时数仓一般性总结
但是有两个问题,第一个问题是小文件很多,但这不是最关键的,第二个问题是最致命的,上游每分钟提交了很多文件到HDFS上,下游消费的Flink是不知道哪些文件是最新提交的,因此下游Flink就不知道应该去消费处理哪些文件。这个问题才是离线数仓做不到实时的最关键原因之一,离线数仓的玩法是说上游将数据全部导入完成了,告诉下游说这波数据全部导完了,你可以消费处理了。这类需求是需要一个可以支持更新的存储系统的,而离线数仓做更新的话需要全量数据覆盖,这也是离线数仓做不到实时的关键原因之一,数据湖是需要解决掉这个问题的。转载 2023-07-30 23:22:22 · 95 阅读 · 0 评论 -
flink join 之 interval join
还有一个很重要的点是:与regular join相比较,interval join只支持带有时间属性的append-only流。Flink Regular Join是最为基础的、没有缓存剔除策略的Join,两个表的输入和更新都会对全局可见,会影响之后所有的Join 结果。Interval join需要至少一个 equi-join 谓词和一个限制了双方时间的 join 条件。interval join 其实就是一种开窗的 regular join,他由flink自身维护状态缓存Row无限增大的问题。转载 2023-07-30 23:05:36 · 310 阅读 · 0 评论 -
FLinkCDC读取MySQl时间戳时区相关问题解决汇总
FlinkCDC时间问题timestamp等FLinkCDC读取MySQl中的日期问题关于flink1.11 flink sql使用cdc时区差8小时问题flinksql 中使用 处理时间时, 时区差八个小时的问题 (在 flink 1.13 以后不会在出现时区问题了)flink cdc同步MySQL-->MySQL,时间少了13个小时实测解决 flink cdc mysql 时间字段差8小时/差13小时问题原创 2023-07-30 17:08:42 · 1030 阅读 · 0 评论 -
数据仓库的MPP架构
举个例子,Teradata就是基于MPP技术的一个关系数据库软件(这是最早采用MPP架构的数据库),基于此数据库来开发应用时,不管后台服务器由多少节点组成,开发人员面对的都是同一个数据库系统,而无需考虑如何调度其中某几个节点的负载。MPP的系统扩展和NUMA不同,MPP是由多台SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。但是访问的速度是不一样的,因为CPU访问本地内存的速度远远高于系统内其他节点的内存速度,这也是非一致存储访问NUMA的由来。转载 2023-07-25 17:48:10 · 2772 阅读 · 1 评论 -
Hive | 求最大连续登录天数的hql
【代码】Hive | 求最大连续登录天数的hql。原创 2023-07-12 19:17:58 · 83 阅读 · 0 评论 -
Flume拦截器
【代码】Flume拦截器。原创 2023-05-21 15:42:17 · 57 阅读 · 0 评论 -
Hive将Json字符串数组转为Json对象数组
【代码】Hive将Json字符串数组转为Json对象数组。原创 2023-05-21 15:31:54 · 799 阅读 · 0 评论 -
CDH6安装文档
大数据CDH集群安装步骤转载 2023-05-14 14:14:32 · 270 阅读 · 0 评论 -
小红书基于数据湖的流批统一存储实践
我们的数据湖是采用的 Iceberg,当数据写入到 Kafka 中,内部线程会去抓取 Leader 数据,经过一些 Schema 数据解析转换为 Table Format 格式写入到 Iceberg 中,这个过程是异步的,对用户来说是无感的。这些都是作为数据共享层数据存储的底座,以及计算分析引擎的一个入口。在 Builtin 的形式下,我们看到只有一个独立的进程,在里面处理落日志之外,还会有一个异步的线程叫 Iceberg Syncer 去不断拉取日志中的数据,然后写入湖中,这种方式有优势也有劣势。转载 2023-04-19 00:20:03 · 734 阅读 · 0 评论 -
5个互联网大厂实时数仓建设实例,例例皆经典
目录一、实时数仓建设背景1. 实时需求日趋迫切2. 实时技术日趋成熟二、实时数仓建设目的1. 解决传统数仓的问题2. 实时数仓的应用场景三、实时数仓建设方案1. 滴滴顺风车实时数仓案例2. 快手实时数仓场景化案例3. 腾讯看点实时数仓案例4. 有赞实时数仓案例5. 腾讯全场景实时数仓建设案例目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效转载 2023-04-18 23:45:16 · 2528 阅读 · 0 评论 -
一文彻底搞懂实时数仓如何选型和构建
首先将各种来源的数据接入ODS贴源数据层,再对ODS层的数据使用Flink的实时计算进行过滤、清洗、转化、关联等操作,形成针对不同业务主题的DWD数据明细层,并将数据发送到Kafka集群。为数据仓库层,数据明细层的数据应是经过ODS清洗,转后的一致的、准确的、干净的数据。目前老的项目大部分还在使用的标准分层体现+流计算+批量计算的方案。:通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,每一层的处理逻辑都相对简单和容易理解。转载 2023-04-18 21:26:37 · 1199 阅读 · 0 评论 -
CDH集群日志清理
1.2 还有一个是 Cloudera Management Service服务产生的日志,存在/var/lib/...1.1 cdh的各组件的日志一般在/var/log目录下(最好前面加上/data),因此主要关注“/”查看/data/var/log下使用空间较大的文件夹,并由大到小排列。1.1 清理cm、cdh组件的日志数据。1.3 清理hdfs回收站数据。1.2 清理监控服务的数据。原创 2022-09-27 23:14:34 · 1471 阅读 · 0 评论 -
HiveServer2的简单用户/密码身份验证(不使用Kerberos/LDAP)
从本质上讲,您必须提供一个可执行身份验证的Java应用程序.也许您正在向mysql或postgres数据库或平面文件等进行身份验证.您需要提供一个可以实现org.apache.hive.service.auth.PasswdAuthenticationProvider接口的jar.然后在hive-site.xml中,使用新创建的自定义身份验证jar。...原创 2022-09-01 00:32:27 · 501 阅读 · 0 评论 -
质量评估:如何全面评价一份数据的质量高低?
“ 数据质量的治理,是数据治理的主要内容之一。数据质量的全面评价,是数据质量治理的准绳。”这一系列的文章,分享一下如何进行数据治理。数据治理包括很多方面了,之前有分享过《数据仓库》相关的内容,也属于数据治理的范畴。今天聊聊数据质量的评估。可能很多小伙伴,之前都没有关注过数据质量的事。但如果是经常和数据打交道的话,以下的场景应该不陌生:场景一:作为分析师,要统计一下近7天用户的购买情况,结果从数仓中统计完发现,很多数据发生了重复记录。场景二:业务看报表,发现某一天的成交gmv暴跌,经过排查发现,是当天的数据缺转载 2022-06-22 12:00:47 · 2828 阅读 · 0 评论 -
数据治理系列:浅谈数据质量管理
数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益...转载 2022-06-14 10:00:43 · 1076 阅读 · 0 评论 -
Impala在网易大数据的优化和实践
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。01Impala的定位及优势Impala有哪些优势,让我们选择Impala作为网易内部的OLAP查询引擎?1. Impala在数据处理中的角色先来看一下Impala在数据处理中的角色。对于数据量较少的场景,例如百万数据以下的情况,可以采用传统的关系型数据库,如MySQL或者转载 2022-05-04 00:00:12 · 456 阅读 · 0 评论 -
教你学会在Hive中如何使用视图和索引
前言我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开始。一、Hive视图1.1 简介Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条SELECT语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到..转载 2022-05-03 23:10:41 · 679 阅读 · 0 评论 -
mongo-hadoop集成
当hadoop集群需要借助mongodb的数据进行辅助分析时,为了快速实施我们需要将hive集成mongodb1. 下载jar包,放到hive节点的第三方包/etc/hive/auxlib目录下(这个目录通过hive hive.aux.jars.path属性配置)wgethttps://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-core/2.0.2/mongo-hadoop-core-2.0.2.jar;w..原创 2022-04-05 00:04:35 · 2193 阅读 · 0 评论 -
CDH平台Hue、Oozie、Impala时区问题处理
UTC是英国格林尼治天文台旧址零时区。中国时区是东八区,比UTC早8小时,是UTC+8。CDH平台有些组件时区默认使用的UTC时间标准时间,工作中需要自己设置。配置完需要重启服务。HueHue的默认时区是America/Los_Angeles,修改为Asia/ShanghaiHUE -> 配置 -> 搜索 zone -> 修改为 Asia/ShanghaiOozieOozie默认为UTC时区,修改为UTC+0800Oozie -> 配置 -&..原创 2022-03-29 11:48:58 · 437 阅读 · 0 评论 -
Hive执行报错CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock
报错日志如下:Caused by: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock{BP-438308737--1615993069368:blk_1073893685_152906; getBlockSize()=949; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[:9866,DS原创 2022-03-28 11:12:44 · 790 阅读 · 0 评论 -
数仓|该如何理解数据仓库的建设
什么是数据仓库数据仓库,最早由比尔·恩门(Bill Inmon)于1990年提出,主要功能是将组织或企业里面的联机事务处理(OLTP)所累积的大量数据,透过数据仓库理论所特有的储存架构,进行系统的分析整理,以利于各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)的进行,并进而支持如决策支持系统(DSS)、主管信息系统(EIS)的创建, 帮助决策者能快速有效的从大量数据中分析出有价值的信息。目前, 被广泛接受的数据仓库的定义是由Bill Inmon在1991年出版的 "Buil转载 2022-03-27 16:29:21 · 243 阅读 · 0 评论 -
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析
写在前面层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面: 数据 什么是大数据 数据分析与数据挖掘的区别是什么 数据库 什么是数据库 数据库中的分布式事务理论 数据仓库 什么是数据仓库 什么是数据集市 数据库与数据仓库的区别是什么转载 2022-03-27 16:27:15 · 1490 阅读 · 0 评论 -
数仓|COUNT DISTINCT数据倾斜优化
什么是数据倾斜数据倾斜,在MapReduce编程模型中十分常见,就是大量的相同key被分配到一个分区里,造成了个别task运行的非常慢,从而影响了整个任务的执行效率。数据倾斜产生的根本原因是少数Worker处理的数据量远远超过其他Worker处理的数据量,因此少数Worker的运行时长远远超过其他Worker的平均运行时长,导致整个任务运行时间超长,造成任务延迟。数据倾斜的原因当我们看任务进度长时间维持在99%(或100%),查看任务监控页面就会发现只有少量(1个或几个)reduce子任务未转载 2022-03-27 16:23:58 · 1391 阅读 · 0 评论 -
数仓|Kimball的维度建模过时了吗?
从20世纪80年代中期以来,kimball一直是数据仓库和商业智能行业维度建模方法的思想开拓者。维度建模之初假设数据仓库仅限于单服务器数据库,随着大数据时代的到来,分布式计算和分式存储成为了新的趋势,所以Ralph Kimball所普及的维度数据建模方法和技术需要一些修订,这样才能更好地满足大数据建模的需求。需要注意的是,在数据仓库领域, Inmon和Kimball是两大主要阵营,但是Kimball的维度建模理论对于现代数仓建设的影响可谓是非常深远的,所以本文主要讨论维度建模的相关问题。不要使用代理键转载 2022-03-27 16:21:54 · 204 阅读 · 0 评论 -
CDH集群之YARN性能调优
本文主要讨论CDH集群的YARN调优配置,关于YARN的调优配置,主要关注CPU和内存的调优,其中CPU是指物理CPU个数乘以CPU核数,即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的,task在container内部执行。集群配置集群的配置主要包括三步,第一是先规划集群的工作主机以及每台主机的配置,第二是规划每台主机的安装的组件及其资源分配,第三是规划集群的规模大小。工作主机的配置如下表所示:主机的内存为256G,4个6核CPU,CPU支持超转载 2022-03-27 16:18:04 · 699 阅读 · 0 评论 -
数仓|长周期去重指标的计算优化
在电商数据仓库和商业分析场景中,经常需要计算最近N天的UV、成交用户数等类似的指标,这些指标都有两个共同的特点 去重,在时间窗口范围内,一个用户多次访问或者购买,只统计一次 时间窗口,这些指标需要根据一段时间内的累积数据进行计算 通常情况下,这些指标的计算逻辑并不复杂,可以从日志明细表中查询数据进行计算。例如,运行如下SQL语句计算商品最近30天的访客数。SELECTsku_code--商品id,COUNT(DISTINCTuser_i...转载 2022-03-27 16:08:47 · 447 阅读 · 0 评论 -
数仓|JOIN数据倾斜优化
背景当数据量比较大且分布不均匀时,对数据进行JOIN操作很容易造成数据倾斜,因为在JOIN的执行阶段会将JOIN KEY相同的数据分发到同一个task任务上处理,如果某个key上的数据量比较多,会导致该task执行的时间比其他的task执行时间长。具体表现为:大部分的task任务都已经执行完成,但只有少数的几个task一直处于运行当中。数据量不大的情况下,一般不会出现数据倾斜的问题。但当数据量巨大时,数据倾斜的现象就会非常普遍。比如电商网站在大促时期,某些店铺的PV远远大于普通店铺的PV,某些热门商转载 2022-03-27 16:04:59 · 1697 阅读 · 0 评论