大数据
文章平均质量分 76
进击吧大数据
大数据技术和数仓实操;大数据技术架构手册编制者
展开
-
你知道数据发散和数据倾斜么?
该问题已同步到小程序:全栈面试题问题在数据开发日常工作当中,数据发散和数据倾斜问题是比较常见的。那么我们该如何判断呢?同时该如何规避这两种问题呢?注意:该问题也经常会被面试官拿来提问面试者解答基于以上问题,大佬们给出了如下的回答:数据发散Destiny:对于数据发散问题,可以查看left join关联对应的右表数据是否有重复,如果出现重复的情况,那么就会造成一对多,可能会出现发散情况。致远大佬给出了本质性的解答:数据发散是因为关联字段值不唯一导致的。Nic大佬分享了遇到的数据原创 2022-05-29 19:45:24 · 4981 阅读 · 2 评论 -
数据如何赋能?
该问题已同步到小程序:全栈面试题问题大家经常动不动就提到数据赋能,那么数据是如何为业务赋能的呢?就此问题,各位大佬们展开了激烈的讨论讨论congrats:对于中大型企业,数据已经成为了业务展开工作的基本构成部分了,比如每天运营、产品部门都等着要数据,等着出报表。商家看生意参谋、交易看板,这些都潜移默化为业务赋能了。对于传统企业转型,可以梳理出当前的企业数据资产,能够方便业务部门使用,这也算是为业务部门赋能。对于有一定数据文化的企业,会做一些数据治理、建立一些指标体系,更好的助力业务,原创 2022-05-29 19:44:41 · 4868 阅读 · 0 评论 -
面试题:如何验证指标结果准确?
问题昨日群内发起一项比较有意思而且开放性的问题:在日常工作当中,大家开发完指标后,是如何验证结果是准确的?这里把大佬们的思考分享出来,同时也做一下汇总,笔者能力和水平有限,如有错误之处,请多多指点。如果同学有更好的想法欢迎一起加入讨论。大佬解答以上大佬们的解答相信也是很多同学日常的操作,可以说是丝毫没有半点毛病。总结这里需要把该问题和保障数据一致性问题区分开来,本文讨论的是数据的准确性问题(DQC范畴)。笔者结合前面大佬们的讨论并查询了一些资料,做出一些总结供大家参考。主要分原创 2022-05-29 19:43:51 · 2872 阅读 · 0 评论 -
Hive伪列
定义Hive中有一个虚拟列的概念,类似于Oracle中伪列。在Hive中虚拟列并不真实存在于表中,在0.8.0版本后有以下几种生成虚拟列的方式:INPUT__FILE__NAME:其值对应的是map task所处理的输入文件名BLOCK__OFFSET__INSIDE__FILE:For blockCompressed files,表示RCFile Block orSequenceFile 当前块在文件中的偏移量;For non-block-compressedfiles, 表示当前行的偏移量.原创 2022-05-29 19:42:47 · 911 阅读 · 0 评论 -
企业治理实战-经验分享
该文章已同步到语雀公开知识库《大数据技术架构手册-1》中;公众号后台回复“小程序注册码”可免费查看面试题小程序前言作为一名数据人,常常自嘲为SQL Boy,某天突然发现原来SQL boy还有一些更高级的工作内容:数据治理。这两年也有很多的大佬分享了很多关于数据治理、数字化转型的干货,个人也从中学习到了很多东西。但真正掌握这些内容和学习编程还是有很大的区别:学习编程可以通过一些简单的demo实践达到知行合一,但治理工作需要结合组织、流程、文化、制度等多因素,需要站在更高的层次,也就是常说的天时地利人和原创 2022-05-29 19:41:25 · 468 阅读 · 0 评论 -
一款宝藏面试题平台上线了(再也不用担心找不到面试题了)
当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 风平浪静 音乐: 陈永淘 - 离开台湾八百米 首先申明:这不是一篇割韭菜的文章。将近有一个多月没有输出文章,因为一直在做一件事:复盘。先跟大家分享一个小故事:在国外有位大学教授曾做过这样一次实验,他当着学生们的面拿出一张10英镑的钱,问学生们有谁想要?...原创 2022-03-29 15:03:44 · 2429 阅读 · 2 评论 -
通知:大数据技术架构知识库公开
之前给大家分享过一个离线的大数据架构手册,其实是从个人语雀知识库里剥离出来的,早期为了引流等等因素吧,还特意买了语雀会员,但可写成员还是有限制(5个知识库都已满员)。为了照顾每位朋友,同时也不想靠这个语雀运营引流,现将全网公开:语雀直接搜索“大数据技术架构”。希望能够帮助到大家,如内容有错误之处,欢迎大家联系小编。...原创 2022-03-09 10:20:15 · 2000 阅读 · 1 评论 -
Spark作业不知道该如何分配资源怎么办?
前几天有好几个朋友问我关于spark作业分配资源的问题:即在提交作业的时候,不知道该分配多少资源比较好?我的回答是靠经验,仔细想想靠经验这等于不是没说吗,总有一些方法论或者思路的吧。所以就有了这篇文章,下笔的时候着实是不知道该怎么写,所以在网上搜索了一下,看看大佬们是怎么回答的。赶巧了不是,还真发现3年前就有人问过这个问题。看了下评论,我感觉我能看懂,但不知道朋友们是否能看懂,所以我想还是要再详细啰嗦一下吧 首先呢,spark官网给我们提供了一些硬件层面的建议,先上链接https://spark.原创 2022-01-11 12:44:43 · 2001 阅读 · 2 评论 -
Hive专题-数据修复篇
相信使用过Hive的同学,一定会知道msck repair的用途(元数据修复)。那么不知道大家有没有好奇过Hive底层是怎么实现该机制的呢?这里带大家简单了解一下。一、基本解释在HMS(Hive MetaStore)中存储着每个表的分区列表,但如果一个新的分区通过HDFS直接添加或者删除的话,那么元数据是不会感知到这些分区信息的变化,这个时候可以通过Alter table table_name add/drop partition命令来手动增加或者删除分区。除了alter命令之外呢,还可以通过msck原创 2021-12-25 22:15:30 · 3099 阅读 · 2 评论 -
依托公众号场景建设指标体系
概念首先看一下百度百科对指标体系的解释:“指标体系指的是若干个相互联系的统计指标所组成的有机体”。它主要由指标和体系两部分组成。那么也就是将零散指标通过某种关系系统化的整合起来形成完整的一棵树。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。体系是由不同的维度组成,而维度是指用户观察、思考与表述某事物的“思维角度”,维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。指标分类关于指标的分类,很多大佬以及原创 2021-12-25 22:14:04 · 1272 阅读 · 1 评论 -
Flink从入门到放弃(九)-万字讲解CDC设计(1)
一、准备工作在开始研究Flink CDC原理之前(本篇先以CDC1.0版本介绍,后续会延伸介绍2.0的功能),需要做以下几个工作(本篇以Flink1.12环境开始着手)打开Flink官网(查看Connector模块介绍)打开Github,下载源码(目前不能放链接,读者们自行在github上搜索)apache-flinkflink-cdc-connectorsdebezium开始入坑二、设计提议2.1、设计动机CDC(Change data Capture,捕捉变更数据)在原创 2021-12-25 22:12:37 · 4093 阅读 · 1 评论 -
Flink从入门到放弃(十二)-企业实战之事件循环驱动型场景(二)
上文Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)为大家介绍了Flink基于事件驱动场景下的渠道流量分析实时需求以及遇到的坑。本文继续讲解基于事件驱动场景来讲解下关于响应时效、服务质量类的需求方案设计以及遇到的坑 (关于Flink主题的所有文章已整理同步到在线腾讯文档,本文中涉及到其他知识点都可在文档中查看,后台回复【文档】获取链接)。需求背景对于响应时效、服务质量类的需求是适用于各种业务场景下的。这里举一个实际的例子:我们在一些外卖平台上选取商品支付下单,然后进入商家接单环节,这原创 2021-12-25 22:06:59 · 942 阅读 · 0 评论 -
Hadoop三部曲搞起~
该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料(密码每周更新一次)入门大数据,通常先从Hadoop学习。通过本文可以学习到以下几点:Hadoop基本特性HDFS读流程HDFS写流程HDFS追加流程HDFS数据块的一致性保障一、Hadoop基本特性 Hadoop是一种分布式系统基础架构,由Apache基金会维护,Hadoop框架最核心的设计就是MapReduce和HDFS。其中一个组件是HDFS(Hadoop Dist原创 2021-12-25 22:03:16 · 225 阅读 · 0 评论 -
一册在手,走遍天下(大数据技术架构手册之上篇十四万字问世)
大数据技术架构手册共计670页原创 2021-12-16 10:42:37 · 2145 阅读 · 1 评论 -
一文理解主数据和参考数据
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一小节将会解答如下疑惑:1、什么是主数据?2、主数据是干嘛用的?3、什么又是参考数据?4、参考数据又是干嘛用的?5、主数据和参考数据又有什么关系?主原创 2021-12-14 21:07:55 · 10214 阅读 · 1 评论 -
十分钟带你走进Hive世界(每走一步都是为了离你更近些)
本地开启Hive源码走读原创 2021-12-13 12:54:18 · 1471 阅读 · 1 评论 -
聊聊我对数仓建设的一些思考
数仓建设的一些思考原创 2021-12-13 12:52:37 · 1169 阅读 · 1 评论 -
(全网首篇)数仓专题-及时性保障方案
在数仓的建设之路中,其中必不可少的一个依赖组件就是调度系统。目前市面上也有很多优秀产品,如以DAG为核心的工作流系统:Azkaban、Oozie、Airflow、DolphinScheduler;以Quartz为代表的定时系统包括Elastic-Job、Xxl-Job、Saturn、PowerJob等,关于调度系统的重要性,这里不作阐述。众所周知,在数仓的建设标准中,其中包括了及时性以及稳定性两个衡量指标,同时这两项指标的好坏也依赖于调度系统的运行是否正常以及功能是否丰富。那么本篇将围绕着数仓建设的标准来原创 2021-12-10 21:05:32 · 1380 阅读 · 0 评论 -
Hadoop三部曲搞起~
该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料(密码每周更新一次)入门大数据,通常先从Hadoop学习。通过本文可以学习到以下几点:Hadoop基本特性HDFS读流程HDFS写流程HDFS追加流程HDFS数据块的一致性保障一、Hadoop基本特性 Hadoop是一种分布式系统基础架构,由Apache基金会维护,Hadoop框架最核心的设计就是MapReduce和HDFS。其中一个组件是HDFS(Hadoop Dist原创 2021-12-06 00:10:03 · 218 阅读 · 0 评论 -
面试官把我问懵了....
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料在前面介绍了Hadoop三部曲搞起~,简单理解了HDFS底层是如何完成读写功能的,在存储层面,HDFS采用了块抽象的方式简化了存储系统设计,即一个文件会被切分成多个块进行存储,在Hadoop 1.x中块的大小是64MB;在Hadoop 2.x中块的大小是128MB,当然在实际生产环境中,也有设置为256MB。那么这里大家思考一下,Hadoop为什么要原创 2021-12-06 00:01:41 · 739 阅读 · 1 评论 -
我说2w字可以入门ES,非但不信还打我
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已同步到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料一、概述Elasticsearch是一个基于Apache Lucene(TM)的分布式、高扩展、高实时、RESTful 风格的搜索和数据分析引擎。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch可用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使原创 2021-12-05 23:58:11 · 739 阅读 · 1 评论 -
面试官问:UDF是在Map端执行还是Reduce端执行?
感谢兄弟们的关注与支持,如果觉得有帮助的话,还请来个点赞、收藏、转发三操作该文章已更新到语雀中,后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料感谢首先感谢linxiang同学提供的文章素材,linxiang在一次课上抛出了这样一个问题"在面试过程中,面试官问到我UDF是在Map端执行的,还是在Reduce端执行的"。我刚听到这个问题的时候,有点没反应过来,因为这个问题确实平时没有去思考过,后来仔细想了下,才有了现在的这篇文章。通过本文,你将可以了解到:1、UDF和UDAF和UDTF之间的区原创 2021-12-05 23:54:55 · 1086 阅读 · 0 评论 -
Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)
本文基于事件驱动场景来讲解下在企业中的实际应用以及所遇到的坑。(关于Flink主题的所有文章已整理同步到在线腾讯文档,本文中涉及到其他知识点都可在文档中查看,后台回复【文档】获取链接)。需求背景某日,小明早上10点打卡到公司,先来一杯热水润润嗓子,打开音乐播放器带上心爱的降噪耳机看看新闻,静静等待11点半吃午饭。突然消息框亮了起来,这个时候小明心想要么来需求了,要么数据就有问题了。这个时候运营A部的同学发消息过来说想要分析下每个渠道当日的实时流量情况,以看板的方式提供就行。 小明看到这种需求,心想这还不简单原创 2021-10-24 15:25:20 · 2971 阅读 · 1 评论 -
51款BI产品、80种可视化工具、80张图(总有一款适合你)
后台回复【“可视化”】领取PDF版本BI(Business Intelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策,商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。自从这一领域被开拓以来,国内外BI工具层出不穷,本文收集市场上推出的BI产品解决方案以及可视化工具,供大原创 2021-10-08 13:07:58 · 5438 阅读 · 0 评论 -
Flink系列专题文章汇总
关注“进击吧大数据”,后台回复进群即可查阅原创 2021-09-19 23:23:45 · 138 阅读 · 0 评论 -
Hive专题-数据倾斜定位篇
对于如何解决数据倾斜,网上的资料也有很多。之前也总结过关于hive和spark的解决方案文章:Spark数据倾斜之骚操作解决方案Hive千亿级数据倾斜解决方案数据开发必经之路-数据倾斜但是对于如何定位到数据倾斜,大多数同学或许都是根据经验判断,可能对于某个reduce一直处于99%进度或者一个任务计算处理超过1个小时以上就可以判定为倾斜问题了。但是无法证明其自己的猜测或者事后进行数据抽样。那么本篇仅以Hive为例,来分享下如何在事后定位到是否倾斜以及倾斜对应的key。1、首先从yarn原创 2021-08-23 14:30:16 · 512 阅读 · 0 评论 -
Hive实现共同好友统计
需求描述在推荐业务场景中,会有些好友推荐的应用出现,例如现在的QQ好友推荐。那么在早些年头,关于共同好友的算法题是通过MR来实现的,也是大厂面试题中的一道。昨天跟朋友又聊到这道题目,讨论使用SQL如何实现?那么先来看下这道题的描述,以及扩展问题。问题描述: 比如某社交公司想实现一种功能给用户推荐好友,比如小明和小张不是好友,但是他们有一个共同好友小王,那么我们就可以把小明推荐给小张,给小张推荐小明。公司在推荐时,会根据共同好友数决定推荐的先后顺序。我们现在有以下表结构,假设数据如下::用户user原创 2021-05-20 13:08:47 · 1301 阅读 · 0 评论 -
二十张图让你一分钟全面学习数仓建设之路
最近在做自我知识体系的梳理,进行查缺补漏。同时也在辅导几位同学学习数仓,如果写数仓专题的话,首先知识点比较多,而且比较抽象,文章更新频率会很慢。所以笔者结合以前学习的资料和大佬们写的文章,这里直接对整个数仓的建设以图的形式展现给大家,也不会特别详细,至少能够让大家对数仓有个整体的认知,如图中出现错误,还希望大佬们多多指出,共同学习!数仓建设整体流程一、业务建模二、领域建模三、逻辑建模四、物理建模基于分层进行真正的实施阶段五、规范治理这原创 2021-03-10 09:09:57 · 638 阅读 · 0 评论