- 博客(208)
- 收藏
- 关注
原创 大数据平台基础架构指南
第1章 大数据平台整体建设思想1.1 什么是大数据平台1.1.1 什么是大数据平台1.2 大数据平台的建设目标1.2.1 别人的大数据平台是怎样的1.2.2 和业内领先的大数据平台的差距1.3 大数据平台的建设指导方针1.3.1 组件工具化1.3.2 工具平台化1.3.3 平台服务化1.3.4 平台产品化1.3.5 对中小公司大数据平台的适用性1.4大数据平台的两种建设路径1.4.1 垂直业务领域一站到底的建设方式1.4.2 通用组件建设,组合支
2022-03-24 18:21:05 1252
原创 基于FlinkCDC2.0+Flink SQL的实时采集与ETL解决方案
基于FlinkCDC2.0+Flink SQL的实时采集与ETL解决方案
2022-03-22 17:40:27 5865
原创 新⼀代USDP开源套件,可替代CDH的免费大数据套件平台及架构选型
持续输出 敬请关注大数据架构 湖仓一体化 流批一体 离线+实时数仓各种大数据解决方案 各种大数据新技术实践持续输出 敬请关注
2022-03-21 16:50:57 8215 1
原创 【项目实战】Flink+InfluxDB+Grafana实现对YARN集群队列资源进行画像
以Flink项目实现为主线,重点讲解Flink项目相关的核心技术,包含Flink流式计算、InfluxDB时序数据库和Grafana数据可视化等。基础的学员能快速上手Flink进行项目开发,有大数据基础的学员也能快速掌握Flink核心技术并积累Flink实际项目经验。
2022-03-17 18:09:58 2024
原创 某集团大数据平台整体架构及实施方案
80%以上企业可套用的大数据平台整体架构方案及实施细则。包含:大数据平台总体架构设计、数据统一管理、元数据管理、数据质量、数据ETL、数据分析与挖掘、数据可视化、大数据平台监控运维等!
2022-03-16 18:29:23 6863 1
原创 基于Flink+Doris构建实时数仓
都2022年了,身为大数据工程师的你,还在苦学 Spark、Hadoop、Storm,却还没搞过 Flink?每年双十一,阿里都在 Flink 实时计算技术的驱动下全程保持了“如丝般顺滑”,基于 Flink 的阿里巴巴实时计算平台简直强·无敌。最恐怖的是,阿里几乎每年的实时计算峰值都达到了破纪录的每秒40亿条记录,数据量也达到了惊人的7TB每秒,相当于一秒钟需要读完500万本《新华字典》!Flink 的强悍之处,阿里已屡试不爽!1.阿里为何坚定不移地选择Flink?大数据起源于批处理
2022-03-15 14:50:58 8367
原创 大数据面试130题
大数据面试题总结一波,助力准备在年底跳槽寻找好工作的小伙伴们,只有度过笔试这一关才能在下面的关卡中大展宏图!Hadoop,Spark,Flink,数据仓库,10多个技术面、100多道面试题,为你的面试保驾护航。
2022-03-11 18:22:52 4022
原创 8个你最想知道的数据中台问题,我们这次聊个透
问题一:是什么催生了数据中台?问题二:数据中台、数据仓库 、数据平台、数据湖有何区别?问题三:数据中台只是一种技术吗?问题四:究竟什么样的企业更适合做数据中台?问题五:数据不多的企业能不能做数据中台?问题六:现在建设数据中台是价格高于价值,还是价值高于价格?问题七:数据中台企业要不要自己做上层应用?问题八:我该如何快速掌握数据中台必备技能,早日成为数据中台企业的一名干...
2020-05-24 10:14:08 1279
原创 300页干货,细说我在联想、联通 做大数据平台建设及运维的那些经验(一)
一、运维的苦恼你要知道二、机房与集群分布可不止一个地三、巡检频次和巡检项目有哪些四、一堆的问题该怎么解决(3个图)五、举例权限变更的处理流程六、看看真实的工单...
2020-04-24 17:56:40 871
原创 数据中台是什么?为什么阿里、腾讯、京东都这么看重数据中台?
随着阿里、腾讯、百度等巨头的大规模组织架构调整,中台的热度陡增。一时间,各大互联网公司纷纷开始跟随建设中台。19年5月2日,有消息传出称阿里正在拆分“大中台”模式。随后,阿里回应称此消息为假消息——这一回应也进一步催生了”中台“架构思想的火热讨论。那么什么是中台,我们来快速梳理一下中台的相关知识。什么是中台?按照数据咨询公司Thoughtworks首席咨询师王健给出的10个字定义,中台...
2020-04-24 17:46:02 1458
原创 提前突击了这近200道大数据面试题,果然头条、京东都给了Offer
面试题包括Java、大数据开发、大数据运维、大数据分析、大数据架构等等Q1:老师线上 6000+规模集群,抛开一些其它组件集群,仅讨论 HDFS 数据存储集群,保守理应也在有 3000 节点左右,想知道这些存储节点只是单集群NameNode 集群来维护吗?还是多集群独立维护的,如果是多集群存储数据,它们之间数据是如何打通进行关联的?如果仅是一个集群的话,我想知道这个集群的 NameNode...
2020-04-23 17:39:48 1809 1
原创 工作3年,月薪20k+的大数据开发人员,突然说我不想只做Hadoop、Spark、Flink层面的技术开发
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...
2020-04-22 17:12:42 695
原创 拉你和国内大厂实力派数据人一起切磋学艺,内推就业也不愁
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...
2020-04-22 17:11:27 274
原创 Kudu专注于大规模数据快速读写,同时进行快速分析的利器
速点链接加入高手战队:http://www.dajiangtai.com/course/112.doKudu是什么Kudu是一个分布式列式存储引擎/系统,由Cloudera开源后捐献给Apache基金会很快成为顶级项目。用于对大规模数据快速读写的同时进行快速分析。官网:https://kudu.apache.org/Kudu运行在一般的商用硬件上,支持水平扩展和高可用,集HDF...
2020-03-13 13:20:38 716 2
原创 生产环境实践:Cana实现MySQL到ES实时同步
速点链接加入高手战队:http://www.dajiangtai.com/course/112.do注:Canal必备基础及安装部署,详看完整文档,以下直接摘取干货分享。实现MySQL-->Canal-Server(Instance)--->ClientAdapter--->ES同步流程所涉及组件的关系(如下)相关组件的作用准备业务库表在MyS...
2020-03-06 11:55:43 739
原创 DolphinScheduler工作流调度引擎 致力于解决数据处理流程中错综复杂的依赖关系
速点链接加入高手战队:http://www.dajiangtai.com/course/112.doDS是什么Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler曾用名为“EasyScheduler”,由易观开发,美...
2020-03-06 11:40:07 5102
原创 宜信开源的Wormhole流处理平台,让大数据流式开发更轻量、更便捷、更可靠
速点链接加入高手战队:http://www.dajiangtai.com/course/112.doWormhole是什么Wormhole 面向大数据流式处理项目的开发管理运维人员,致力于提供统一抽象的概念体系,直观可视化的操作界面,简单流畅的配置管理流程,基于SQL 即可完成的业务逻辑开发方式,并且屏蔽了流式处理的底层技术细节,极大的降低了数据项目管理运维门槛,使得大数据流式处理项...
2020-03-06 11:06:30 1169
原创 Atlas(元数据管理)从扫盲到和Hive、HBase、Kafka、Flink等集成开发
Atlas(元数据管理)从扫盲到和Hive、HBase、Kafka、Flink等集成开发速点链接加入高手战队:http://www.dajiangtai.com/course/112.do先对数据分个类企业数据管理的内容及范畴通常包括交易数据、主数据以及元数据。(1)交易数据:用于纪录业务事件,如客户的订单,投诉记录,客服申请等,它往往用于描述在某一个时间点上业务系统发...
2020-03-04 21:04:12 4077 4
原创 Flink1.9重大改进和新功能
Flink1.9重大改进和新功能二、重构Flink WebUIFlink社区讨论了现代化 Flink WebUI 的提案,决定采用 Angular 的最新稳定版来重构这个组件。从Angular 1.x 跃升到了 7.x 。重新设计的 UI 是 1.9.0 的默认UI,不过有一个按钮可以切换到旧版的WebUI。点击上图所示按钮可切换至旧版Web UI:新版更...
2020-02-27 15:48:42 546
原创 【2020】DBus,一个更能满足企业需求的大数据采集平台
功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具深知其他组件的局限性,才能彰显DBus的优越感当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异...
2020-02-27 15:10:35 1507 1
原创 大数据架构师+精英必备技能
(一)架构师技能树大数据基础巩固(录播)HDFS分布式文件系统1.HDFS架构设计2.HDFS设计思想3.数据块4.机架感知5.容错策略6.数据本地性策略7.读写流程分析8.HDFS高可用原理MapReduce分布式计算模型1.基本原理2.作业执行流程3.深入理解shuffle流程4.MapReduce执行流程5.Partition分区6.Join算法7....
2020-01-04 12:49:16 2482 3
原创 Linux系统安装
2.1Linux系统介绍1.操作系统(英语:operating system,缩写作OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。操作系统是硬件基础上的第一层软件, 应用软件都需要安装到操作系统上使...
2019-12-30 10:54:37 237
原创 VMware虚拟机安装
1.1虚拟机是什么?简单地说,你可以把虚拟机理解为虚拟的机器,这个虚拟的机器和真实的机器在功能实现上几乎完全一样,只是说虚拟机的硬盘是在一个磁盘文件中虚拟出来的。1.2如何搭建虚拟机?虚拟机的搭建实际上就是通过安装虚拟化的软件来实现的。即在你的真实电脑上通过安装一个虚拟化软件就可以实现虚拟机的搭建。1.3虚拟化软件有哪些?常见的虚拟化软件有VMware workst...
2019-12-30 10:13:32 271
原创 大数据运维:大数据平台+海量数据
大数据开发独揽大权大数据技术很早就在BAT这些公司生根发芽,但直到14、15年大数据技术才广泛应用在各大互联网公司,大数据技术由此深入各行各业。此时大数据开发人才非常紧缺,很多公司大数据从立项,到大数据平台构建,到项目整个流程开发,到后期大数据项目的运维,都是由大数据开发人员一手完成(此时少有专业大数据运维人才)。但随着公司数据越来越多,业务越来越复杂,大数据集群规模越来越大,大数据团队...
2019-12-25 15:44:16 8781
原创 数据中台的产生背景、核心理念、发展阶段
2019年是数据中台元年,中国整个IT行业在这一年掀起一股新的浪潮,数据中台这股潮流正席卷IT界的各个角落,并通过各种自媒体发酵渗透到各行各业。数据中台在大数据时代的背景下格外引人注目,一些有前瞻性的企业都在探讨和摸索数字化转型之路,热议有关数据中台的话题。有人认为这又是一波炒作,从而收取企业智商税,类似于最近这两年炒作的人工智能、区块链,也有人认为这是企业应对危机的自我驱动力。利用数据进行变...
2019-12-25 09:39:59 5353
原创 大数据运维 | 集群_监控_CDH_Docker_K8S_两项目_云服务器
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会。如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强、含金量高、专注度高,有6个专题+2个大型项目+腾讯云服务器,真枪实弹传授上千大数据集群运维经验。课程介绍:这是专门为IT运维人员设计的高端大数据课程,可能也是目前的 onlyon...
2019-12-22 09:45:12 3918 7
原创 【笔记】hbase有几个region始终无法上线
现象日志报错:#4, table=null, attempt=1/0 failed=1ops, last exception: org.apache.hadoop.hbase.NotServingRegionException: org.apache.hadoop.hbase.NotServingRegionException: Region TraceV2查询偶尔也会报错:...
2019-11-04 14:57:52 1321
原创 【总结笔记】kafka工作常见问题汇总
没有禁用"自动创建topic"的功能已经增加参数auto.create.topics.enable=false,否则任何人只要发数据给kafka,没有对应的topic都会自动创建,一旦生产者多了会乱套。数据保留周期过短已经修改为3天,log.retention.hours=72。默认是3小时,阿里云的破环境有时候网络出问题就得三小时,来不及消费的消息就没了。节点有点少(一主一备,最小集...
2019-10-24 16:15:01 596
原创 【数仓大全】传统数仓、大数据数仓、离线数仓、实时数仓、数仓Lambda架构、Kappa架构、数据湖
数仓架构演变(场景驱动)离线大数据架构典型案例离线数仓分层离线大数据架构典型案例Lambda架构Lambda架构进一步理解Lambda架构典型案例Lambda架构典型案例(有赞广告团,基于Druid)Lambda架构存在的问题Kappa架构Kappa架构典型案例Kappa架构典型案例(以Kylin...
2019-10-22 10:58:45 3855 1
原创 【全集】IDEA入门到实战
课程介绍IDEA是一款功能强悍、非常好用的Java开发工具,近几年编程开发人员对IDEA情有独钟。虽然IDEA功能很强大,但目前市面讲解的不细致、不系统,导致很多IDEA初学者要么无从下手,要么耗费太多时间。本套课程分知识点进行录制讲解,大家可以精准找到想学的模块,方便大部分同学的学习和使用。课程视频下载地址(视频完整,无加密)1.关注微信公众号“大数据研习社”,回复 “i...
2019-10-13 10:24:50 978
原创 【全集】大数据Linux基础
课程介绍本课程是由猎豹移动大数据架构师,根据公司大数据平台的运维情况,精心设计和打磨的大数据必备Linux课程。通过本课程的学习大数据新手能够少走弯路,快速掌握Linux常用命令及Shell编程,为后续大数据课程的学习奠定了坚实的基础。适用人群1.缺乏Linux基础的学员2.转行想学大数据的学员课程视频下载地址(视频完整,无加密)1.关注微信公众号“大数据研习社...
2019-10-13 10:06:01 316 1
原创 【全集】大数据Java基础
课程介绍本课程是由猎豹移动大数据架构师,根据Java在公司大数据开发中的实际应用,精心设计和打磨的大数据必备Java课程。通过本课程的学习大数据新手能够少走弯路,以较短的时间系统掌握大数据开发必备语言Java,为后续大数据课程的学习奠定了坚实的语言基础。适用人群1.想学大数据没有语言基础的学员2.想学大数据没有Java语言基础的学员3.转行想学大数据的学员4.了解Java,大数据Ja...
2019-10-12 23:01:55 579
原创 【大数据】年薪百万架构师必备技能
搞Java开发的同学,目标都想成为Java架构师;搞大数据开发的同学,目标都想成为大数据架构师。成为大数据架构师有什么好处呢?归其原因:1.技术上能达到一定的高度,被公司认可,也被社会认可,有成就感;2.待遇好,薪资高,生活质量高;3.随着年龄越大,经验越丰富越值钱,避免IT程序员35岁后失业的焦虑。那么成为大数据架构师,需要具备哪些技能呢?搞Ja...
2019-10-03 17:44:42 918
原创 【经典】一个大数据学习的解决方案
从0基础小白到架构师,对于一个没入行的小白来说,想都不敢想,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台。对于大数据技术应用方面,无论是传统行业还是互联网行业,经过这几年的发展已经相当成熟。很多有IT基础的小伙伴冲着大数据薪资高、待遇好、就业前景不错,都争先恐后的加入到大数据技术学习的行列中来,特别是有Java基础的同学,因为Java行业已趋近饱和,薪资干了几年没见涨,职位晋升也...
2019-10-03 17:40:08 852
原创 2019云栖大会头版头条 六位大咖提到最多的字眼就是“数据”
当我看到这个结果的时候,我是惊讶的。虽然我坚信数据对未来发展的重要性,但是这么高频次的提及。实属震惊。 很显然,未来已经很明确。未来的经济发展需要大量数字或数据相关的人才,尤其是高级人才。当别人在这个方向几年如一日的坚持努力,越走越高。你还在观望等待,那么当别人拿着年薪百万、甚至几百万的时候,你也只能眼巴巴说句“卧槽,真高”。哪有什么天才?一鸣惊人背后哪个不是...
2019-09-26 18:14:37 357
原创 Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka
聊什么为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开...
2019-04-30 17:46:22 3082
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人