Hadoop
文章平均质量分 82
大数据研习社
「大数据研习社」号主,实战大数据(Hadoop+Spark+Flink)作者,从Java开发到大数据开发13年。微信:dashuju_2017,加好友备注CSDN。
展开
-
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(六)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-07-20 12:14:01 · 528 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(一)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-23 11:15:07 · 659 阅读 · 0 评论 -
【史上最全】Ambari 大数据集群运维与管理操作指南
作 用Hadoop 是用在商业主机网络集群上的大规模、分布式的数据存储和处理基础架构。监控和管理如此复杂的分布式系统是不简单的。为了管理这种复杂性,Apache Ambari 从集群节点和服务收集了大量的信息,并把它们表现为容易使用的,集中化的接口:Ambari Web功 能显示诸如服务特定的摘要、图表以及警报信息创建和管理 HDP 集群并执行基本的操作任务,例如启动和停止服务,向集群中添加主机,以及更新服务配置执行集群管理任务,例如启用 Kerberos 安全以及执行 St原创 2022-03-30 19:08:48 · 6056 阅读 · 0 评论 -
【全网独家】大数据集群节点与硬件规划
1.大数据集群节点规划1.1 数据存储总量预估比如业务系统数据量每天增量 50T,保留周期为 30 天,那么 HDFS 存储容量为 50T * 30 天 * 3副本 * 2 倍(数据源+清晰加工) = 9000T = 8.79P1.2 DataNode节点规模预估每个机器的磁盘是 4T *10 = 40T, 每台机器的可用存储容量为 40T *0.75 = 30T, 节点预估数量= 9000T / 30 = 300 节点,所以 datanode 的节点最小数量为 300 个...原创 2022-03-28 15:23:54 · 5167 阅读 · 1 评论 -
【亲测可用】Hadoop分布式集群扩缩容
Hadoop集群动态扩缩容1 项目需求随着公司业务的增长,数据量越来越大,原有DataNode节点的容量已经不能满足数据存储的需求,需要在原有集群基础上动态添加新的数据节点,也就是俗称的动态扩容。如果在Hadoop集群运行过程中,某些节点变得反常,例如故障率过高或者性能过低,可能就需要停止这些节点上的Hadoop服务,并从Hadoop集群中移除,也就是俗称的动态缩容。通常情况下,节点需要同时运行DataNode和NodeManager守护进程,所以两者一般同时新增或者移除。2 动态扩容原理原创 2022-03-25 13:59:40 · 2579 阅读 · 0 评论 -
实战派总结的大数据面试题
90%大数据面试中会被问到的10道必考面试大题原创 2022-03-23 15:57:19 · 4004 阅读 · 0 评论 -
300页干货,细说我在联想、联通 做大数据平台建设及运维的那些经验(一)
一、运维的苦恼你要知道二、机房与集群分布可不止一个地三、巡检频次和巡检项目有哪些四、一堆的问题该怎么解决(3个图)五、举例权限变更的处理流程六、看看真实的工单...原创 2020-04-24 17:56:40 · 871 阅读 · 0 评论 -
提前突击了这近200道大数据面试题,果然头条、京东都给了Offer
面试题包括Java、大数据开发、大数据运维、大数据分析、大数据架构等等Q1:老师线上 6000+规模集群,抛开一些其它组件集群,仅讨论 HDFS 数据存储集群,保守理应也在有 3000 节点左右,想知道这些存储节点只是单集群NameNode 集群来维护吗?还是多集群独立维护的,如果是多集群存储数据,它们之间数据是如何打通进行关联的?如果仅是一个集群的话,我想知道这个集群的 NameNode...原创 2020-04-23 17:39:48 · 1809 阅读 · 1 评论 -
8个你最想知道的数据中台问题,我们这次聊个透
问题一:是什么催生了数据中台?问题二:数据中台、数据仓库 、数据平台、数据湖有何区别?问题三:数据中台只是一种技术吗?问题四:究竟什么样的企业更适合做数据中台?问题五:数据不多的企业能不能做数据中台?问题六:现在建设数据中台是价格高于价值,还是价值高于价格?问题七:数据中台企业要不要自己做上层应用?问题八:我该如何快速掌握数据中台必备技能,早日成为数据中台企业的一名干...原创 2020-05-24 10:14:08 · 1279 阅读 · 0 评论 -
工作3年,月薪20k+的大数据开发人员,突然说我不想只做Hadoop、Spark、Flink层面的技术开发
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...原创 2020-04-22 17:12:42 · 695 阅读 · 0 评论 -
拉你和国内大厂实力派数据人一起切磋学艺,内推就业也不愁
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...原创 2020-04-22 17:11:27 · 274 阅读 · 0 评论 -
DolphinScheduler工作流调度引擎 致力于解决数据处理流程中错综复杂的依赖关系
速点链接加入高手战队:http://www.dajiangtai.com/course/112.doDS是什么Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler曾用名为“EasyScheduler”,由易观开发,美...原创 2020-03-06 11:40:07 · 5102 阅读 · 0 评论 -
宜信开源的Wormhole流处理平台,让大数据流式开发更轻量、更便捷、更可靠
速点链接加入高手战队:http://www.dajiangtai.com/course/112.doWormhole是什么Wormhole 面向大数据流式处理项目的开发管理运维人员,致力于提供统一抽象的概念体系,直观可视化的操作界面,简单流畅的配置管理流程,基于SQL 即可完成的业务逻辑开发方式,并且屏蔽了流式处理的底层技术细节,极大的降低了数据项目管理运维门槛,使得大数据流式处理项...原创 2020-03-06 11:06:30 · 1169 阅读 · 0 评论 -
生产环境实践:Cana实现MySQL到ES实时同步
速点链接加入高手战队:http://www.dajiangtai.com/course/112.do注:Canal必备基础及安装部署,详看完整文档,以下直接摘取干货分享。实现MySQL-->Canal-Server(Instance)--->ClientAdapter--->ES同步流程所涉及组件的关系(如下)相关组件的作用准备业务库表在MyS...原创 2020-03-06 11:55:43 · 739 阅读 · 0 评论 -
Flink1.9重大改进和新功能
Flink1.9重大改进和新功能二、重构Flink WebUIFlink社区讨论了现代化 Flink WebUI 的提案,决定采用 Angular 的最新稳定版来重构这个组件。从Angular 1.x 跃升到了 7.x 。重新设计的 UI 是 1.9.0 的默认UI,不过有一个按钮可以切换到旧版的WebUI。点击上图所示按钮可切换至旧版Web UI:新版更...原创 2020-02-27 15:48:42 · 546 阅读 · 0 评论 -
【2020】DBus,一个更能满足企业需求的大数据采集平台
功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具深知其他组件的局限性,才能彰显DBus的优越感当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异...原创 2020-02-27 15:10:35 · 1507 阅读 · 1 评论 -
flink随手笔记之Slot分配与共享
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9共享Slot默认情况下,Flink 允许subtasks共享slot,条件是它们都来自同一个Job的不同task的subtask。结果可能一个slot持有该job的整个p...原创 2019-03-18 16:02:19 · 16491 阅读 · 4 评论 -
月薪3万+的大数据人都在疯学Flink,为什么?
身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉。何以至此,Flink是个什么鬼?Apache Flink(简称Flink)是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进...原创 2019-04-04 11:57:37 · 692 阅读 · 0 评论 -
Apache Flink 漫谈系列(01) - 序
Apache Flink 漫谈系列会分享什么呢?本系列分享的核心内容会围绕 Apache Flink的核心特征以及阿里巴巴对Apache Flink功能的丰富和性能、架构的优化进行深入剖析,从系统架构到具体每个算子的语义都会向读者进行细致分享,并且以图文和具体示例的方式讲解具体算子的实现原理。Why闪速成为Apache顶级项目Apache Flink是时代的产物,是当前纯流式计算引擎的...转载 2019-04-22 14:50:21 · 274 阅读 · 0 评论 -
Apache Flink 漫谈系列(02) - 概述
Apache Flink 的命脉"命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。唯快不破我们经常听说 "天下武功,唯快不...转载 2019-04-22 15:09:34 · 500 阅读 · 0 评论 -
别懵逼,用户画像其实是这么回事儿
大数据研习社这个社群运营至今,已有QQ群50+,微信群10+,微信/头条/博客多维度覆盖,触及影响的大数据人群20万+。好学君发现,在大数据领域,大家讨论比较多而且“来钱”最快的领域就是用户画像以及个性化推荐这块儿啦。但很多同学又觉得用户画像特别难“搞”,不好落地而且依赖的技术多资源多。好学君本人对用户画像一直处于懵逼状态,偶尔想装X还心底发虚,直到我看到了下面这份资料。这是来自前阿里推荐算法...原创 2019-04-26 16:54:09 · 560 阅读 · 0 评论 -
Apache Flink 漫谈系列(09) - JOIN 算子
聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统数据库有什么区别呢?本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子,以及JOIN算子在Apa...翻译 2019-04-26 17:00:07 · 482 阅读 · 0 评论 -
Flink学习笔记:异步I/O访问外部数据
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Aysnc I/O1.1Aysnc I/O是啥?Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的:是为了解决与外部系统交互时...原创 2019-03-22 16:14:11 · 3088 阅读 · 0 评论 -
Flink学习笔记:Operators之Process Function
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Process Function1.1分层APIFlink提供三层API. 每个API在简洁性和表达之间提供不同的权衡,并针对不同的用例1.SQL/Table API (dyna...原创 2019-03-22 16:08:40 · 5928 阅读 · 0 评论 -
Flink部署模式
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Local 本地部署Flink 可以运行在 Linux、Mac OS X 和 Windows 上。本地模式的安装唯一需要的只是 Java 1.7.x或更高版本,本地运行会启...原创 2019-03-18 16:53:00 · 888 阅读 · 0 评论 -
Flink项目学习笔记之——Operators之CoGroup及Join操作
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9Window CoGroup与Join1.1回顾RDBMS各种join假设有两个表A和B1.CROSS JOIN(AB的笛卡尔积/交叉联接)省略写法为join,由...原创 2019-03-21 17:55:37 · 893 阅读 · 0 评论 -
Flink学习笔记:Connectors之kafka
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. Kafka-connector概述及FlinkKafkaConsumer(kafka source)1.1回顾kafka1.最初由Linkedin 开发的分布式消息中间件...原创 2019-03-25 14:53:30 · 4751 阅读 · 0 评论 -
Flink随堂笔记:Connectors概述
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91. 各种Connector1.1Connector是什么鬼Connectors是数据进出Flink的一套接口和实现,可以实现Flink与各种存储、系统的连接注意:数据进出Fli...原创 2019-03-25 14:43:47 · 768 阅读 · 0 评论 -
大数据舞台中的Flink
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl92014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于 Storm、Spark Streaming 以及其他流式计算引擎的是:它不仅是一个高吞吐、低...原创 2019-03-13 15:16:36 · 1228 阅读 · 0 评论 -
Apache Flink 漫谈系列(03) - Watermark
实际问题(乱序)在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗...转载 2019-04-23 15:19:17 · 455 阅读 · 0 评论 -
Apache Flink 漫谈系列(04) - State
实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。那么问题来了: "上一次的计算结果保存在哪里,...转载 2019-04-23 15:32:42 · 711 阅读 · 0 评论 -
Apache Flink 漫谈系列(10) - JOIN LATERAL
聊什么上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示:本篇会先介绍传统数据库对LATERAL JOIN的支持,然后介...转载 2019-04-28 17:04:27 · 4159 阅读 · 2 评论 -
大数据Java基础系列-Java基本数据类型
Java基本数据类型 数据类型在程序语言中占据着极其重要的地位。Java的数据类型可以分为两类:基本数据类型、引用数据类型。 现在,我们主要来学习一下Java基本数据类型。原创 2017-04-01 14:39:10 · 701 阅读 · 0 评论 -
【大数据】年薪百万架构师必备技能
搞Java开发的同学,目标都想成为Java架构师;搞大数据开发的同学,目标都想成为大数据架构师。成为大数据架构师有什么好处呢?归其原因:1.技术上能达到一定的高度,被公司认可,也被社会认可,有成就感;2.待遇好,薪资高,生活质量高;3.随着年龄越大,经验越丰富越值钱,避免IT程序员35岁后失业的焦虑。那么成为大数据架构师,需要具备哪些技能呢?搞Ja...原创 2019-10-03 17:44:42 · 918 阅读 · 0 评论 -
【经典】一个大数据学习的解决方案
从0基础小白到架构师,对于一个没入行的小白来说,想都不敢想,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台。对于大数据技术应用方面,无论是传统行业还是互联网行业,经过这几年的发展已经相当成熟。很多有IT基础的小伙伴冲着大数据薪资高、待遇好、就业前景不错,都争先恐后的加入到大数据技术学习的行列中来,特别是有Java基础的同学,因为Java行业已趋近饱和,薪资干了几年没见涨,职位晋升也...原创 2019-10-03 17:40:08 · 852 阅读 · 0 评论 -
2019云栖大会头版头条 六位大咖提到最多的字眼就是“数据”
当我看到这个结果的时候,我是惊讶的。虽然我坚信数据对未来发展的重要性,但是这么高频次的提及。实属震惊。 很显然,未来已经很明确。未来的经济发展需要大量数字或数据相关的人才,尤其是高级人才。当别人在这个方向几年如一日的坚持努力,越走越高。你还在观望等待,那么当别人拿着年薪百万、甚至几百万的时候,你也只能眼巴巴说句“卧槽,真高”。哪有什么天才?一鸣惊人背后哪个不是...原创 2019-09-26 18:14:37 · 356 阅读 · 0 评论 -
Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka
聊什么为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开...原创 2019-04-30 17:46:22 · 3082 阅读 · 0 评论 -
Apache Flink 漫谈系列(08) - SQL概览
SQL简述SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从Early History of SQL中了解关系模型后在IBM开发的。该版本最初称为[SEQUEL: A Structured English Query Language](结构化英语查询语...转载 2019-04-25 16:32:20 · 396 阅读 · 0 评论 -
Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)
实际问题我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。数据管理在介绍持续查询之前,我们先看看Apache Flink对数据的管理和传统数据库对数据管理的区别,以MySQL为例,如下图:如上图所示传统数据库...转载 2019-04-25 16:28:01 · 464 阅读 · 0 评论 -
Apache Flink 漫谈系列(13) - Table API 概述
什么是Table API在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示:Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用...转载 2019-04-29 11:01:49 · 415 阅读 · 0 评论