自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据研习社

关注微信“大数据研习社”,每天一份干货资料免费领取!

  • 博客(117)
  • 收藏
  • 关注

原创 8个你最想知道的数据中台问题,我们这次聊个透

问题一:是什么催生了数据中台?问题二:数据中台、数据仓库 、数据平台、数据湖有何区别?问题三:数据中台只是一种技术吗?问题四:究竟什么样的企业更适合做数据中台?问题五:数据不多的企业能不能做数据中台?问题六:现在建设数据中台是价格高于价值,还是价值高于价格?问题七:数据中台企业要不要自己做上层应用?问题八:我该如何快速掌握数据中台必备技能,早日成为数据中台企业的一名干...

2020-05-24 10:14:08 581

原创 300页干货,细说我在联想、联通 做大数据平台建设及运维的那些经验(一)

一、运维的苦恼你要知道二、机房与集群分布可不止一个地三、巡检频次和巡检项目有哪些四、一堆的问题该怎么解决(3个图)五、举例权限变更的处理流程六、看看真实的工单...

2020-04-24 17:56:40 312

原创 数据中台是什么?为什么阿里、腾讯、京东都这么看重数据中台?

随着阿里、腾讯、百度等巨头的大规模组织架构调整,中台的热度陡增。一时间,各大互联网公司纷纷开始跟随建设中台。19年5月2日,有消息传出称阿里正在拆分“大中台”模式。随后,阿里回应称此消息为假消息——这一回应也进一步催生了”中台“架构思想的火热讨论。那么什么是中台,我们来快速梳理一下中台的相关知识。什么是中台?按照数据咨询公司Thoughtworks首席咨询师王健给出的10个字定义,中台...

2020-04-24 17:46:02 651

原创 提前突击了这近200道大数据面试题,果然头条、京东都给了Offer

面试题包括Java、大数据开发、大数据运维、大数据分析、大数据架构等等Q1:老师线上 6000+规模集群,抛开一些其它组件集群,仅讨论 HDFS 数据存储集群,保守理应也在有 3000 节点左右,想知道这些存储节点只是单集群NameNode 集群来维护吗?还是多集群独立维护的,如果是多集群存储数据,它们之间数据是如何打通进行关联的?如果仅是一个集群的话,我想知道这个集群的 NameNode...

2020-04-23 17:39:48 923 1

原创 工作3年,月薪20k+的大数据开发人员,突然说我不想只做Hadoop、Spark、Flink层面的技术开发

“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...

2020-04-22 17:12:42 326

原创 拉你和国内大厂实力派数据人一起切磋学艺,内推就业也不愁

“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就...

2020-04-22 17:11:27 134

原创 Kudu专注于大规模数据快速读写,同时进行快速分析的利器

速点链接加入高手战队:http://www.dajiangtai.com/course/112.doKudu是什么Kudu是一个分布式列式存储引擎/系统,由Cloudera开源后捐献给Apache基金会很快成为顶级项目。用于对大规模数据快速读写的同时进行快速分析。官网:https://kudu.apache.org/Kudu运行在一般的商用硬件上,支持水平扩展和高可用,集HDF...

2020-03-13 13:20:38 301 1

原创 生产环境实践:Cana实现MySQL到ES实时同步

速点链接加入高手战队:http://www.dajiangtai.com/course/112.do注:Canal必备基础及安装部署,详看完整文档,以下直接摘取干货分享。实现MySQL-->Canal-Server(Instance)--->ClientAdapter--->ES同步流程所涉及组件的关系(如下)相关组件的作用准备业务库表在MyS...

2020-03-06 11:55:43 332

原创 DolphinScheduler工作流调度引擎 致力于解决数据处理流程中错综复杂的依赖关系

速点链接加入高手战队:http://www.dajiangtai.com/course/112.doDS是什么Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler曾用名为“EasyScheduler”,由易观开发,美...

2020-03-06 11:40:07 1995

原创 宜信开源的Wormhole流处理平台,让大数据流式开发更轻量、更便捷、更可靠

速点链接加入高手战队:http://www.dajiangtai.com/course/112.doWormhole是什么Wormhole 面向大数据流式处理项目的开发管理运维人员,致力于提供统一抽象的概念体系,直观可视化的操作界面,简单流畅的配置管理流程,基于SQL 即可完成的业务逻辑开发方式,并且屏蔽了流式处理的底层技术细节,极大的降低了数据项目管理运维门槛,使得大数据流式处理项...

2020-03-06 11:06:30 488

原创 Atlas(元数据管理)从扫盲到和Hive、HBase、Kafka、Flink等集成开发

Atlas(元数据管理)从扫盲到和Hive、HBase、Kafka、Flink等集成开发速点链接加入高手战队:http://www.dajiangtai.com/course/112.do先对数据分个类企业数据管理的内容及范畴通常包括交易数据、主数据以及元数据。(1)交易数据:用于纪录业务事件,如客户的订单,投诉记录,客服申请等,它往往用于描述在某一个时间点上业务系统发...

2020-03-04 21:04:12 1366 1

原创 Flink1.9重大改进和新功能

Flink1.9重大改进和新功能二、重构Flink WebUIFlink社区讨论了现代化 Flink WebUI 的提案,决定采用 Angular 的最新稳定版来重构这个组件。从Angular 1.x 跃升到了 7.x 。重新设计的 UI 是 1.9.0 的默认UI,不过有一个按钮可以切换到旧版的WebUI。点击上图所示按钮可切换至旧版Web UI:新版更...

2020-02-27 15:48:42 302

原创 【2020】DBus,一个更能满足企业需求的大数据采集平台

功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具深知其他组件的局限性,才能彰显DBus的优越感当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异...

2020-02-27 15:10:35 738 1

原创 大数据架构师+精英必备技能

(一)架构师技能树大数据基础巩固(录播)HDFS分布式文件系统1.HDFS架构设计2.HDFS设计思想3.数据块4.机架感知5.容错策略6.数据本地性策略7.读写流程分析8.HDFS高可用原理MapReduce分布式计算模型1.基本原理2.作业执行流程3.深入理解shuffle流程4.MapReduce执行流程5.Partition分区6.Join算法7....

2020-01-04 12:49:16 1167 3

原创 Linux系统安装

2.1Linux系统介绍1.操作系统(英语:operating system,缩写作OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。操作系统是硬件基础上的第一层软件, 应用软件都需要安装到操作系统上使...

2019-12-30 10:54:37 115

原创 VMware虚拟机安装

1.1虚拟机是什么?简单地说,你可以把虚拟机理解为虚拟的机器,这个虚拟的机器和真实的机器在功能实现上几乎完全一样,只是说虚拟机的硬盘是在一个磁盘文件中虚拟出来的。1.2如何搭建虚拟机?虚拟机的搭建实际上就是通过安装虚拟化的软件来实现的。即在你的真实电脑上通过安装一个虚拟化软件就可以实现虚拟机的搭建。1.3虚拟化软件有哪些?常见的虚拟化软件有VMware workst...

2019-12-30 10:13:32 127

原创 大数据运维:大数据平台+海量数据

大数据开发独揽大权大数据技术很早就在BAT这些公司生根发芽,但直到14、15年大数据技术才广泛应用在各大互联网公司,大数据技术由此深入各行各业。此时大数据开发人才非常紧缺,很多公司大数据从立项,到大数据平台构建,到项目整个流程开发,到后期大数据项目的运维,都是由大数据开发人员一手完成(此时少有专业大数据运维人才)。但随着公司数据越来越多,业务越来越复杂,大数据集群规模越来越大,大数据团队...

2019-12-25 15:44:16 5764

原创 数据中台的产生背景、核心理念、发展阶段

2019年是数据中台元年,中国整个IT行业在这一年掀起一股新的浪潮,数据中台这股潮流正席卷IT界的各个角落,并通过各种自媒体发酵渗透到各行各业。数据中台在大数据时代的背景下格外引人注目,一些有前瞻性的企业都在探讨和摸索数字化转型之路,热议有关数据中台的话题。有人认为这又是一波炒作,从而收取企业智商税,类似于最近这两年炒作的人工智能、区块链,也有人认为这是企业应对危机的自我驱动力。利用数据进行变...

2019-12-25 09:39:59 2154

原创 大数据运维 | 集群_监控_CDH_Docker_K8S_两项目_云服务器

说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会。如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强、含金量高、专注度高,有6个专题+2个大型项目+腾讯云服务器,真枪实弹传授上千大数据集群运维经验。课程介绍:这是专门为IT运维人员设计的高端大数据课程,可能也是目前的 onlyon...

2019-12-22 09:45:12 1220 7

原创 【笔记】hbase有几个region始终无法上线

现象日志报错:#4, table=null, attempt=1/0 failed=1ops, last exception: org.apache.hadoop.hbase.NotServingRegionException: org.apache.hadoop.hbase.NotServingRegionException: Region TraceV2查询偶尔也会报错:...

2019-11-04 14:57:52 457

原创 【总结笔记】kafka工作常见问题汇总

没有禁用"自动创建topic"的功能已经增加参数auto.create.topics.enable=false,否则任何人只要发数据给kafka,没有对应的topic都会自动创建,一旦生产者多了会乱套。数据保留周期过短已经修改为3天,log.retention.hours=72。默认是3小时,阿里云的破环境有时候网络出问题就得三小时,来不及消费的消息就没了。节点有点少(一主一备,最小集...

2019-10-24 16:15:01 309

原创 【数仓大全】传统数仓、大数据数仓、离线数仓、实时数仓、数仓Lambda架构、Kappa架构、数据湖

数仓架构演变(场景驱动)离线大数据架构典型案例离线数仓分层离线大数据架构典型案例Lambda架构Lambda架构进一步理解Lambda架构典型案例Lambda架构典型案例(有赞广告团,基于Druid)Lambda架构存在的问题Kappa架构Kappa架构典型案例Kappa架构典型案例(以Kylin...

2019-10-22 10:58:45 1813

原创 【全集】IDEA入门到实战

课程介绍IDEA是一款功能强悍、非常好用的Java开发工具,近几年编程开发人员对IDEA情有独钟。虽然IDEA功能很强大,但目前市面讲解的不细致、不系统,导致很多IDEA初学者要么无从下手,要么耗费太多时间。本套课程分知识点进行录制讲解,大家可以精准找到想学的模块,方便大部分同学的学习和使用。课程视频下载地址(视频完整,无加密)1.关注微信公众号“大数据研习社”,回复 “i...

2019-10-13 10:24:50 151

原创 【全集】大数据Linux基础

课程介绍本课程是由猎豹移动大数据架构师,根据公司大数据平台的运维情况,精心设计和打磨的大数据必备Linux课程。通过本课程的学习大数据新手能够少走弯路,快速掌握Linux常用命令及Shell编程,为后续大数据课程的学习奠定了坚实的基础。适用人群1.缺乏Linux基础的学员2.转行想学大数据的学员课程视频下载地址(视频完整,无加密)1.关注微信公众号“大数据研习社...

2019-10-13 10:06:01 130 1

原创 【全集】大数据Java基础

课程介绍本课程是由猎豹移动大数据架构师,根据Java在公司大数据开发中的实际应用,精心设计和打磨的大数据必备Java课程。通过本课程的学习大数据新手能够少走弯路,以较短的时间系统掌握大数据开发必备语言Java,为后续大数据课程的学习奠定了坚实的语言基础。适用人群1.想学大数据没有语言基础的学员2.想学大数据没有Java语言基础的学员3.转行想学大数据的学员4.了解Java,大数据Ja...

2019-10-12 23:01:55 198

原创 【大数据】年薪百万架构师必备技能

搞Java开发的同学,目标都想成为Java架构师;搞大数据开发的同学,目标都想成为大数据架构师。成为大数据架构师有什么好处呢?归其原因:1.技术上能达到一定的高度,被公司认可,也被社会认可,有成就感;2.待遇好,薪资高,生活质量高;3.随着年龄越大,经验越丰富越值钱,避免IT程序员35岁后失业的焦虑。那么成为大数据架构师,需要具备哪些技能呢?搞Ja...

2019-10-03 17:44:42 405

原创 【经典】一个大数据学习的解决方案

从0基础小白到架构师,对于一个没入行的小白来说,想都不敢想,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台。对于大数据技术应用方面,无论是传统行业还是互联网行业,经过这几年的发展已经相当成熟。很多有IT基础的小伙伴冲着大数据薪资高、待遇好、就业前景不错,都争先恐后的加入到大数据技术学习的行列中来,特别是有Java基础的同学,因为Java行业已趋近饱和,薪资干了几年没见涨,职位晋升也...

2019-10-03 17:40:08 417

原创 2019云栖大会头版头条 六位大咖提到最多的字眼就是“数据”

当我看到这个结果的时候,我是惊讶的。虽然我坚信数据对未来发展的重要性,但是这么高频次的提及。实属震惊。 很显然,未来已经很明确。未来的经济发展需要大量数字或数据相关的人才,尤其是高级人才。当别人在这个方向几年如一日的坚持努力,越走越高。你还在观望等待,那么当别人拿着年薪百万、甚至几百万的时候,你也只能眼巴巴说句“卧槽,真高”。哪有什么天才?一鸣惊人背后哪个不是...

2019-09-26 18:14:37 152

原创 Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka

聊什么为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开...

2019-04-30 17:46:22 359

转载 Apache Flink 漫谈系列(13) - Table API 概述

什么是Table API在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示:Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用...

2019-04-29 11:01:49 166

转载 Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN

说什么JOIN 算子是数据处理的核心算子,前面我们在《Apache Flink 漫谈系列(09) - JOIN 算子》介绍了UnBounded的双流JOIN,在《Apache Flink 漫谈系列(10) - JOIN LATERAL》介绍了单流与UDTF的JOIN操作,在《Apache Flink 漫谈系列(11) - Temporal Table JOIN》又介绍了单流与版本表的JOIN,...

2019-04-29 10:59:35 374

转载 Apache Flink 漫谈系列(11) - Temporal Table JOIN

什么是Temporal Table在《Apache Flink 漫谈系列 - JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了...

2019-04-28 17:06:49 253

转载 Apache Flink 漫谈系列(10) - JOIN LATERAL

聊什么上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示:本篇会先介绍传统数据库对LATERAL JOIN的支持,然后介...

2019-04-28 17:04:27 1179 2

翻译 Apache Flink 漫谈系列(09) - JOIN 算子

聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统数据库有什么区别呢?本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子,以及JOIN算子在Apa...

2019-04-26 17:00:07 248

原创 别懵逼,用户画像其实是这么回事儿

大数据研习社这个社群运营至今,已有QQ群50+,微信群10+,微信/头条/博客多维度覆盖,触及影响的大数据人群20万+。好学君发现,在大数据领域,大家讨论比较多而且“来钱”最快的领域就是用户画像以及个性化推荐这块儿啦。但很多同学又觉得用户画像特别难“搞”,不好落地而且依赖的技术多资源多。好学君本人对用户画像一直处于懵逼状态,偶尔想装X还心底发虚,直到我看到了下面这份资料。这是来自前阿里推荐算法...

2019-04-26 16:54:09 433

转载 Apache Flink 漫谈系列(08) - SQL概览

SQL简述SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从Early History of SQL中了解关系模型后在IBM开发的。该版本最初称为[SEQUEL: A Structured English Query Language](结构化英语查询语...

2019-04-25 16:32:20 154

转载 Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)

实际问题我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。数据管理在介绍持续查询之前,我们先看看Apache Flink对数据的管理和传统数据库对数据管理的区别,以MySQL为例,如下图:如上图所示传统数据库...

2019-04-25 16:28:01 202

转载 Apache Flink 漫谈系列(06) - 流表对偶(duality)性

实际问题很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micro Batching模式),提供SQL API很容易被人理解,但是Flink是纯流(Native S...

2019-04-24 16:04:33 196

原创 Apache Flink 漫谈系列(05) - Fault Tolerance

实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,Apache Flink会如何处理呢?在 《Apache Flink 漫谈系列 - State》一篇中我们介绍了 Apache Flink 会利用State记录计算的状态,在Failover时候Task会根据...

2019-04-24 15:54:38 165

转载 Apache Flink 漫谈系列(04) - State

实际问题在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。那么问题来了: "上一次的计算结果保存在哪里,...

2019-04-23 15:32:42 473

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除