进击吧大数据-CSDN博客

原创一款宝藏面试题平台上线了（再也不用担心找不到面试题了）

当前浏览器不支持播放音乐或语音，请在微信或其他浏览器中播放风平浪静音乐：陈永淘 - 离开台湾八百米首先申明：这不是一篇割韭菜的文章。将近有一个多月没有输出文章，因为一直在做一件事：复盘。先跟大家分享一个小故事：在国外有位大学教授曾做过这样一次实验，他当着学生们的面拿出一张10英镑的钱，问学生们有谁想要?...

2022-03-29 15:03:44 2475 2

引入通过对上篇Flink从入门到放弃之入门篇(四)-剖析窗口生命周期的讲解，我们对flink窗口的整个生命周期有了一个大致的了解，并掌握了窗口的作用。这里给出一个常见的生产案例，如统计每分钟的点击用户数，技术实现上一般是flink对接kafka(假设这里我们保证全局有序的)，窗口长度为1分钟。如下图示例：图中的结果可以说是精准的，不过这里有一个前提条件就是消费kafka时消息是全局有序的。但是一般实际环境下很难保证全局有序，那么就会出现下图的情况：可能由于网络延迟或者系统故障等一些因素导致20:

2021-02-01 22:56:36 641

原创 Flink从入门到放弃之入门篇(四)-剖析窗口生命周期

一、应用场景Apache Flink可以说是目前大数据实时流处理最流行的技术，功能非常强大，支持开发和运行多种不同类型的应用程序。主要特性包括：批流一体化、状态管理、事件时间支持以及精准一次的状态一致性保障等。目前Flink的应用场景整体概括下来包含以下几点：事件驱动型应用数据分析(OLAP)型应用数据管道/ETL类型应用接下来将针对这三类应用做一个简单的概述，希望读者能有一个大概的了解。1.1 事件驱动型应用概念：事件驱动是在计算存储分离的传统应用基础上进

2021-02-01 22:54:26 1166 1

原创学会Flink看完这一篇就够了

Flink系列专题近两年flink技术成为了大数据行业的主流，同时也成为了各大公司招聘的首选要求。笔者当初也是从零开始学习，网上找各种视频，看各种博客去学习，但一直没有总结整理成文章。我相信对于很多读者来说，学习一门新的技术，无非有以下几种途径：自学1.1 看视频(白嫖/自费)优点：入门快缺点：时间周期长,所学知识虽广，但不深入；一般都是比较常用的技术点1.2 看官网/博客优点：借鉴大佬总结的文章，或者所遇到的坑所沉淀出的经验缺点：知识点过于零碎，且官网大多是英文，对于阅读差的读者不够友好

2020-12-05 14:32:22 777

原创 (纯干货建议收藏)一次GC引发的Spark调优大全

上一篇Project Tungsten On Spark-内存设计总结了Spark内存设计相关的知识点，本篇会快速为读者复习一下JVM相关的知识点，然后基于线上的GC调优对spark整体的调优做一个汇总，希望能让读者在调优之路更上一层楼。一般在我们开发spark程序的时候，从代码开发到上线以及后期的维护中，在整个过程中都需要涉及到调优的问题，即一开始需要考虑如何把代码写的更简洁高效调优(即代码优化)，待开发测试完成后，提交任务时综合考量该任务所需的资源(这里涉及到资源调优)，上线后是否会出现数据倾斜问题（

2020-12-01 21:36:20 2781 1

原创 Project Tungsten On Spark-内存设计

最近对线上spark作业的GC长达十几分钟(主要是频繁的Young GC)问题进行了一些优化，其中涉及到了spark内存模型的知识点，这里做一个复盘总结。关于spark内存优化不得不提到Project Tungsten(钨丝计划)，因为spark的内存模型属于该项目的一个优化点。一、Tungsten起源背景众所周知，Spark是由Scala+Java开发的一种基于内存计算的大数据解决方案，底层运行在JVM上，那么自然而然的会有GC的问题反过来限制Spark的性能，而且绝大多数Spark应用程序的主要瓶

2020-11-22 18:45:12 557

原创 flink从入门到放弃之入门篇(二)-Source操作

1.Flink预定义Source操作在flink中，source主要负责数据的读取。flink预定义的source中又分为「并行source(主要实现ParallelSourceFunction接口)「和」非并行source(主要实现了SourceFunction接口)」附上官网相关的说明：you can always write your own custom sources by implementing theSourceFunctionfor non-parallel sour..

2020-10-21 13:29:49 1906 4

原创 Flink从入门到放弃之入门篇(一)-Flink快速上手

1.Flink介绍1.1 Flink简介Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，可以对有限数据流和无限数据流进行有状态计算，即提供支持流处理和批处理两种类型的功能1.2 Flink特点批流统一支持高吞吐、低延迟‘高性能的流处理支持有状态计算的Exactly-Once语义支持高度灵活的窗口操作，如基于事件时间，基于会话时间，基于处理时间等。支持Backpressure功能的持续流模型支持

2020-10-21 08:03:30 1325 3

转载 zookeeper源码解读之-服务端启动流程

学习更多zookeeper源码或者spark等大数据技术，请关注公众号“初学大数据”一、服务端启动整体流程图二、整体代码解读先给大家看一下服务端整体的解读流程，方便后期大家阅读，以及更加深入了解zookeeper的运行机制上图是阅读服务端运行源码时的笔记，流程可能不是很清晰；总体思路是先了解全貌，然后再细化具体的逻辑Zookeeper启动类是QuorumPeerMain ，其参数是配置文件zoo.cfg流程1.参数解析QuorumPeerConfig conf

2020-08-29 19:14:07 386

原创 zookeeper源码解读之-源码编译

一、编译前准备1.下载zookeeper源码git clone clone -b branch-3.5.5 https://github.com/apache/zookeeper.git2.下载Ant# 1.下载Anthttps://downloads.apache.org/ant/binaries/apache-ant-1.10.8-bin.zip# 2.配置环境变量 # 2.1 新增用户变量ANT_HOME ,值为安装目录 # 2.2 将bin目录增加到系统变量Path中# 3.

2020-08-29 19:07:32 342

原创最长回文字符串三种解法

先解释一下什么是回文字符串，比如说字符串“aba”，无论是从先往后读取还是从后往前读取，结果都是一样的。当给定很长的字符串时，如何快速获取到最长的回文字符串，这也是大厂比较常见的算法面试题，那么这里给出三种解法。 1.暴力穷举法思路：即遍历每种子字符串，然后判断该子字符串是否为回文(即前半部分是否等于后半部分)，时间复杂度为O(n*n*n) /** * 暴力穷举 * 遍历每种子字符串，然后对该子字符串进行判断是否为回文(即比较前半部分是否等于后半部分) * @p..

2020-08-29 15:19:19 1740

原创实战：如何实时采集上亿级别数据？

注意:后期将持续更新文章，更多喜欢请关注公众号背景介绍公司业务系统做优化改造，同时为了能够实现全链路监控，需收集所有业务系统之间的调用日志。数据情况:每天20亿+机器成本:3台kafka集群，2台logstash采集机器技术:Java,MQ,MLSQL,Logstash下图为最终结果图采集流程流程分解流程一：MLSQL 消费MQ原始日志产生侧通过protobuf进行序列化推送至mq,然后通过MLSQL进行反序列化并进行简单的etl处理后，再推送至MQ流程二：通过Lo

2020-08-21 23:41:48 818 1

原创一道简单的算法面试题

需求统计指定字符在字符串中出现的次数，包含连续重复的情况，例如要统计字符’a’在’aaa’中出现的次数，那么统计出的结果是3，如果要统计’aa’在’aaa’中出现的次数，那么统计出的结果是2。具体实现思路:解决方案首先要确定的是要统计出该结果，肯定是需要对字符串进行遍历的，那么无非就是哪种遍历方式更加高效，时间复杂度更低第一种方案：最直接的方式就是依次顺序遍历第二种方案：好一点的方案就是根据指定字符的长度进行间隔遍历，间隔长度就是指定字符的长度具体实现public class Ch

2020-08-21 23:34:57 158

原创你知道数据发散和数据倾斜么？

该问题已同步到小程序：全栈面试题问题在数据开发日常工作当中，数据发散和数据倾斜问题是比较常见的。那么我们该如何判断呢？同时该如何规避这两种问题呢？注意：该问题也经常会被面试官拿来提问面试者解答基于以上问题，大佬们给出了如下的回答：数据发散Destiny：对于数据发散问题，可以查看left join关联对应的右表数据是否有重复，如果出现重复的情况，那么就会造成一对多，可能会出现发散情况。致远大佬给出了本质性的解答：数据发散是因为关联字段值不唯一导致的。Nic大佬分享了遇到的数据

2022-05-29 19:45:24 5441 1

原创数据如何赋能？

该问题已同步到小程序：全栈面试题问题大家经常动不动就提到数据赋能，那么数据是如何为业务赋能的呢？就此问题，各位大佬们展开了激烈的讨论讨论congrats：对于中大型企业，数据已经成为了业务展开工作的基本构成部分了，比如每天运营、产品部门都等着要数据，等着出报表。商家看生意参谋、交易看板，这些都潜移默化为业务赋能了。对于传统企业转型，可以梳理出当前的企业数据资产，能够方便业务部门使用，这也算是为业务部门赋能。对于有一定数据文化的企业，会做一些数据治理、建立一些指标体系，更好的助力业务，

2022-05-29 19:44:41 5102

原创面试题:如何验证指标结果准确？

问题昨日群内发起一项比较有意思而且开放性的问题：在日常工作当中，大家开发完指标后，是如何验证结果是准确的？这里把大佬们的思考分享出来，同时也做一下汇总，笔者能力和水平有限，如有错误之处，请多多指点。如果同学有更好的想法欢迎一起加入讨论。大佬解答以上大佬们的解答相信也是很多同学日常的操作，可以说是丝毫没有半点毛病。总结这里需要把该问题和保障数据一致性问题区分开来，本文讨论的是数据的准确性问题(DQC范畴)。笔者结合前面大佬们的讨论并查询了一些资料，做出一些总结供大家参考。主要分

2022-05-29 19:43:51 3401

原创 Hive伪列

定义Hive中有一个虚拟列的概念，类似于Oracle中伪列。在Hive中虚拟列并不真实存在于表中，在0.8.0版本后有以下几种生成虚拟列的方式：INPUT__FILE__NAME:其值对应的是map task所处理的输入文件名BLOCK__OFFSET__INSIDE__FILE:For blockCompressed files,表示RCFile Block orSequenceFile 当前块在文件中的偏移量；For non-block-compressedfiles, 表示当前行的偏移量.

2022-05-29 19:42:47 979

原创企业治理实战-经验分享

该文章已同步到语雀公开知识库《大数据技术架构手册-1》中;公众号后台回复“小程序注册码”可免费查看面试题小程序前言作为一名数据人，常常自嘲为SQL Boy，某天突然发现原来SQL boy还有一些更高级的工作内容：数据治理。这两年也有很多的大佬分享了很多关于数据治理、数字化转型的干货，个人也从中学习到了很多东西。但真正掌握这些内容和学习编程还是有很大的区别：学习编程可以通过一些简单的demo实践达到知行合一，但治理工作需要结合组织、流程、文化、制度等多因素，需要站在更高的层次，也就是常说的天时地利人和

2022-05-29 19:41:25 512

原创通知:大数据技术架构知识库公开

之前给大家分享过一个离线的大数据架构手册，其实是从个人语雀知识库里剥离出来的，早期为了引流等等因素吧，还特意买了语雀会员，但可写成员还是有限制（5个知识库都已满员）。为了照顾每位朋友，同时也不想靠这个语雀运营引流，现将全网公开：语雀直接搜索“大数据技术架构”。希望能够帮助到大家，如内容有错误之处，欢迎大家联系小编。...

2022-03-09 10:20:15 2034 1

原创 Spark作业不知道该如何分配资源怎么办？

前几天有好几个朋友问我关于spark作业分配资源的问题：即在提交作业的时候，不知道该分配多少资源比较好？我的回答是靠经验，仔细想想靠经验这等于不是没说吗，总有一些方法论或者思路的吧。所以就有了这篇文章，下笔的时候着实是不知道该怎么写，所以在网上搜索了一下，看看大佬们是怎么回答的。赶巧了不是，还真发现3年前就有人问过这个问题。看了下评论，我感觉我能看懂，但不知道朋友们是否能看懂，所以我想还是要再详细啰嗦一下吧首先呢，spark官网给我们提供了一些硬件层面的建议，先上链接https://spark.

2022-01-11 12:44:43 2096 2

原创 Hive专题-数据修复篇

相信使用过Hive的同学，一定会知道msck repair的用途（元数据修复）。那么不知道大家有没有好奇过Hive底层是怎么实现该机制的呢？这里带大家简单了解一下。一、基本解释在HMS(Hive MetaStore)中存储着每个表的分区列表，但如果一个新的分区通过HDFS直接添加或者删除的话，那么元数据是不会感知到这些分区信息的变化，这个时候可以通过Alter table table_name add/drop partition命令来手动增加或者删除分区。除了alter命令之外呢，还可以通过msck

2021-12-25 22:15:30 3232 2

原创依托公众号场景建设指标体系

概念首先看一下百度百科对指标体系的解释：“指标体系指的是若干个相互联系的统计指标所组成的有机体”。它主要由指标和体系两部分组成。那么也就是将零散指标通过某种关系系统化的整合起来形成完整的一棵树。指标是指将业务单元细分后量化的度量值，它使得业务目标可描述、可度量、可拆解，它是业务和数据的结合，是统计的基础，也是量化效果的重要依据。体系是由不同的维度组成，而维度是指用户观察、思考与表述某事物的“思维角度”，维度是指标体系的核心，没有维度，单纯说指标是没有任何意义的。指标分类关于指标的分类，很多大佬以及

2021-12-25 22:14:04 1356 1

原创 Flink从入门到放弃(九)-万字讲解CDC设计(1)

一、准备工作在开始研究Flink CDC原理之前(本篇先以CDC1.0版本介绍，后续会延伸介绍2.0的功能)，需要做以下几个工作(本篇以Flink1.12环境开始着手)打开Flink官网(查看Connector模块介绍)打开Github,下载源码(目前不能放链接，读者们自行在github上搜索)apache-flinkflink-cdc-connectorsdebezium开始入坑二、设计提议2.1、设计动机CDC(Change data Capture,捕捉变更数据)在

2021-12-25 22:12:37 4285 1

原创 Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)

需求背景某日，小明早上10点打卡到公司，先来一杯热水润润嗓子，打开音乐播放器带上心爱的降噪耳机看看新闻，静静等待11点半吃午饭。突然消息框亮了起来，这个时候小明心想要么来需求了，要么数据就有问题了。这个时候运营A部的同学发消息过来说想要分析下每个渠道当日的实时流量情况，以看板的方式提供就行。小明看到这种需求，心想这还不简单，立马答应了下来，并许诺下班前完成。方案设计小明基于公司现有的Flink1.12.0 SQL接入Kafka来读取数据实现统计,通过渠道维度数据来关联,并将最终结果写入Mysql中，

2021-12-25 22:10:55 295

原创 Flink从入门到放弃(十二)-企业实战之事件循环驱动型场景(二)

上文Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)为大家介绍了Flink基于事件驱动场景下的渠道流量分析实时需求以及遇到的坑。本文继续讲解基于事件驱动场景来讲解下关于响应时效、服务质量类的需求方案设计以及遇到的坑（关于Flink主题的所有文章已整理同步到在线腾讯文档，本文中涉及到其他知识点都可在文档中查看，后台回复【文档】获取链接）。需求背景对于响应时效、服务质量类的需求是适用于各种业务场景下的。这里举一个实际的例子：我们在一些外卖平台上选取商品支付下单，然后进入商家接单环节，这

2021-12-25 22:06:59 965

原创 Hadoop三部曲搞起~

该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料(密码每周更新一次)入门大数据，通常先从Hadoop学习。通过本文可以学习到以下几点：Hadoop基本特性HDFS读流程HDFS写流程HDFS追加流程HDFS数据块的一致性保障一、Hadoop基本特性 Hadoop是一种分布式系统基础架构，由Apache基金会维护，Hadoop框架最核心的设计就是MapReduce和HDFS。其中一个组件是HDFS（Hadoop Dist

2021-12-25 22:03:16 248

原创一册在手，走遍天下(大数据技术架构手册之上篇十四万字问世)

大数据技术架构手册共计670页

2021-12-16 10:42:37 2168 1

原创一文理解主数据和参考数据

感谢兄弟们的关注与支持，如果觉得有帮助的话，还请来个点赞、收藏、转发三操作该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料如果你准备要开展推动数据治理或者是数据质量的项目，那么你就有可能会听说到几个词：主数据和参考数据。一开始听到主数据这一词听起来就很高大上，而且非专业人士肯定不理解（即便是从事数据行业的朋友也很难参透）。这一小节将会解答如下疑惑：1、什么是主数据？2、主数据是干嘛用的？3、什么又是参考数据？4、参考数据又是干嘛用的？5、主数据和参考数据又有什么关系？主

2021-12-14 21:07:55 10515 1

原创十分钟带你走进Hive世界(每走一步都是为了离你更近些)

本地开启Hive源码走读

2021-12-13 12:54:18 1528 1

原创聊聊我对数仓建设的一些思考

数仓建设的一些思考

2021-12-13 12:52:37 1237

原创 (全网首篇)数仓专题-及时性保障方案

在数仓的建设之路中，其中必不可少的一个依赖组件就是调度系统。目前市面上也有很多优秀产品，如以DAG为核心的工作流系统：Azkaban、Oozie、Airflow、DolphinScheduler；以Quartz为代表的定时系统包括Elastic-Job、Xxl-Job、Saturn、PowerJob等，关于调度系统的重要性，这里不作阐述。众所周知，在数仓的建设标准中，其中包括了及时性以及稳定性两个衡量指标，同时这两项指标的好坏也依赖于调度系统的运行是否正常以及功能是否丰富。那么本篇将围绕着数仓建设的标准来

2021-12-10 21:05:32 1463

原创 Hadoop三部曲搞起~

该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料(密码每周更新一次)入门大数据，通常先从Hadoop学习。通过本文可以学习到以下几点：Hadoop基本特性HDFS读流程HDFS写流程HDFS追加流程HDFS数据块的一致性保障一、Hadoop基本特性 Hadoop是一种分布式系统基础架构，由Apache基金会维护，Hadoop框架最核心的设计就是MapReduce和HDFS。其中一个组件是HDFS（Hadoop Dist

2021-12-06 00:10:03 253

原创面试官把我问懵了....

感谢兄弟们的关注与支持，如果觉得有帮助的话，还请来个点赞、收藏、转发三操作该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料在前面介绍了Hadoop三部曲搞起~，简单理解了HDFS底层是如何完成读写功能的，在存储层面，HDFS采用了块抽象的方式简化了存储系统设计，即一个文件会被切分成多个块进行存储，在Hadoop 1.x中块的大小是64MB；在Hadoop 2.x中块的大小是128MB，当然在实际生产环境中，也有设置为256MB。那么这里大家思考一下，Hadoop为什么要

2021-12-06 00:01:41 765

原创我说2w字可以入门ES，非但不信还打我

感谢兄弟们的关注与支持，如果觉得有帮助的话，还请来个点赞、收藏、转发三操作该文章已同步到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料一、概述Elasticsearch是一个基于Apache Lucene(TM)的分布式、高扩展、高实时、RESTful 风格的搜索和数据分析引擎。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch可用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使

2021-12-05 23:58:11 773

原创面试官问：UDF是在Map端执行还是Reduce端执行?

感谢兄弟们的关注与支持，如果觉得有帮助的话，还请来个点赞、收藏、转发三操作该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料感谢首先感谢linxiang同学提供的文章素材，linxiang在一次课上抛出了这样一个问题"在面试过程中，面试官问到我UDF是在Map端执行的，还是在Reduce端执行的"。我刚听到这个问题的时候，有点没反应过来，因为这个问题确实平时没有去思考过，后来仔细想了下，才有了现在的这篇文章。通过本文，你将可以了解到:1、UDF和UDAF和UDTF之间的区

2021-12-05 23:54:55 1243 1

原创 Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)

本文基于事件驱动场景来讲解下在企业中的实际应用以及所遇到的坑。（关于Flink主题的所有文章已整理同步到在线腾讯文档，本文中涉及到其他知识点都可在文档中查看，后台回复【文档】获取链接）。需求背景某日，小明早上10点打卡到公司，先来一杯热水润润嗓子，打开音乐播放器带上心爱的降噪耳机看看新闻，静静等待11点半吃午饭。突然消息框亮了起来，这个时候小明心想要么来需求了，要么数据就有问题了。这个时候运营A部的同学发消息过来说想要分析下每个渠道当日的实时流量情况，以看板的方式提供就行。小明看到这种需求，心想这还不简单

2021-10-24 15:25:20 3002

原创 51款BI产品、80种可视化工具、80张图(总有一款适合你)

后台回复【“可视化”】领取PDF版本BI(Business Intelligence)即商业智能，它是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确的提供报表并提出决策依据，帮助企业做出明智的业务经营决策，商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库（或数据集市）、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。自从这一领域被开拓以来，国内外BI工具层出不穷，本文收集市场上推出的BI产品解决方案以及可视化工具，供大

2021-10-08 13:07:58 6217

原创 Flink系列专题文章汇总

关注“进击吧大数据”，后台回复进群即可查阅

2021-09-19 23:23:45 153

原创 Hive专题-数据倾斜定位篇

对于如何解决数据倾斜，网上的资料也有很多。之前也总结过关于hive和spark的解决方案文章：Spark数据倾斜之骚操作解决方案Hive千亿级数据倾斜解决方案数据开发必经之路-数据倾斜但是对于如何定位到数据倾斜，大多数同学或许都是根据经验判断，可能对于某个reduce一直处于99%进度或者一个任务计算处理超过1个小时以上就可以判定为倾斜问题了。但是无法证明其自己的猜测或者事后进行数据抽样。那么本篇仅以Hive为例，来分享下如何在事后定位到是否倾斜以及倾斜对应的key。1、首先从yarn

2021-08-23 14:30:16 552

原创 Hive实现共同好友统计

需求描述在推荐业务场景中，会有些好友推荐的应用出现，例如现在的QQ好友推荐。那么在早些年头，关于共同好友的算法题是通过MR来实现的，也是大厂面试题中的一道。昨天跟朋友又聊到这道题目，讨论使用SQL如何实现？那么先来看下这道题的描述，以及扩展问题。问题描述: 比如某社交公司想实现一种功能给用户推荐好友，比如小明和小张不是好友，但是他们有一个共同好友小王，那么我们就可以把小明推荐给小张，给小张推荐小明。公司在推荐时，会根据共同好友数决定推荐的先后顺序。我们现在有以下表结构，假设数据如下：：用户user

2021-05-20 13:08:47 1367

Storm简介介绍

HBase文档

BIEE配置ODBC连接impala

flume-ng-elasticsearch-sink-1.9.0.jar

Kettle使用说明

空空如也