自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

玉皇大帝不开心

欢迎关注“数据仓库与Python大数据”公众号(ID: iom1128)

  • 博客(50)
  • 收藏
  • 关注

原创 系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们本文目录CONTENTS ☞ 01.可视化BI工具[ 开源BI,商业BI,传统BI] ☞ 0...

2019-09-25 08:08:00 1137

原创 系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们本文目录CONTENTS ☞ ETL同步之道 [ Sqoop、Data...

2019-09-11 13:47:49 455

原创 系列 | 漫谈数仓第二篇NO.2 『数据模型』(维度建模&建模工具)

点击上方“数据仓库与Python大数据”,选择“置顶/星标”第一时间获取 精彩资讯!本文导航前言:model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好...

2019-09-03 01:55:42 1386

原创 系列 | 漫谈数仓第一篇NO.1 『​基础架构』

01. 架构演进离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。本文不再多再介绍,之前文章已有深入介绍,如有兴趣可看这篇文章:02. 逻辑分层数仓分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。例如经典四层架构:ods->dwd->...

2019-08-28 08:15:00 676

原创 大数据可视化BI工具,通幽洞微

更多精彩,请点击上方蓝字关注我们!工欲善其事,必先利其器大数据时代商业智能(BI)和数据可视化诉求更为强烈,淘宝大屏更是风靡全球!数据可视化是大数据『最后一公里』,BI唤...

2019-07-29 20:13:54 350

转载 Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。本文来自 Apache Spark技术交流社区。共同点定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起

2021-04-10 23:33:48 362

转载 漫画:什么是数据仓库?

一个故事在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。如...

2019-10-21 17:00:00 359

转载 BI, 数据仓库,ETL, 数据开发,有什么区别?

BI: Business Intelligence.为商业提供一切智能化操作,判断与管理的手段,都可以归拢到 BI 范畴。即便是 AI (Artificial Intel...

2019-10-20 21:17:40 3897

转载 系列 | 实时数仓实践第二篇NO.2『数据质量』

点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们 作者author诸葛子房,现就职于一线互联网公司,中国Hbase技术社区委员,从事大数据相关工作。了解互...

2019-10-20 21:17:40 595

原创 最新中台架构PPT,一起欣赏6大互联网大厂的架构图

直奔主题 大厂中台架构PPT1菜鸟数据中台技术演进之路陈飞-菜鸟高级技术专家,11年-16年阿里巴巴数据应用部从事大数据风控决策系统,全球企业信息库 ToB产品,16年至...

2019-10-20 21:17:40 6076

转载 系列 | 实时数仓实践第一篇NO.1『宽表处理』

点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们 作者author诸葛子房,目前就职于一线互联网公司,中国Hbase技术社区委员,从事大数据相关工作。了解...

2019-10-18 08:08:00 1203

转载 一道SQL题的前世今生

来看一道SQL题目:注:以下讨论核心在于解释原理,所涉及到的数据和表结构均为虚构。本文代码较多,如果看不清楚,可以在后台回复“SQL”获取本文PDF版本。假设某APP场景...

2019-10-18 08:08:00 279

转载 Lambda架构已死,去ETL化的IOTA才是未来

经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架...

2019-10-16 00:08:08 346

原创 记一次 蚂蚁金服 数据仓库 岗位面试经历

导读:本文将带你一起走进蚂蚁金服大数据数仓面试。文末加群,即有机会与作者『潇傲江湖』群内沟通,高手对决。蚂蚁金服大数据数仓岗位的面试经历一、前言本人一直在外企做传统数仓也差不多十年了,技术栈都是以关系型数据库和商业工具为主。看着日新月异的大数据技术的发展和数仓架构的不断迭代,想跳到互联网企业看看去接触新的业务和技术栈。今年...

2019-10-15 00:04:13 4301

原创 大数据、数仓成神之路,冲击30k就靠它了!(送书福利)

点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们Oct 11♪说两句Qian Yan乌云蔽月,人迹踪绝,大数据成神之路金九银十,很多朋友在后台/微信问我,...

2019-10-11 00:27:36 584 1

转载 我所理解的互联网BI数据分析师 | 全面解读(建议收藏)

本文目录:☞ 数据分析师的工作内容☞数据分析师的能力要求☞数据分析与数据挖掘☞数据分析师的困境☞数据分析师的推荐资料☞总结数据分析师虽然是很多互联网公司都设立的...

2019-10-10 08:08:00 5134

转载 直击面试 | 一文搞懂大数据、数仓面试必问之『数据倾斜』(建议收藏)

???? Index什么是数据倾斜数据倾斜的原因Hadoop计算框架的特点优化的常用手段优化案例???? 什么是数据倾斜我们在用hive取数的时候,有的时候只是跑一个简单的join语...

2019-10-08 19:55:11 1044

转载 记一次蚂蚁金服的面试经历

2015在实习的时候,当时一个一起实习的朋友在2019年3月份的时候突然在微信上找我,问我要不要面试下蚂蚁金服。问了下相关信息才知道他在2018年11月的时候进到蚂蚁金服...

2019-10-07 23:32:03 358

转载 秒懂Flink状态State-深度解读(上)『建议收藏』

目录☆☞Overview(概述)☆☞Working with State(带状态的工作)☆☞The Broadcast State Pattern(广播状态模...

2019-10-06 10:30:00 10338 2

转载 基于 Apache Kylin 的微博舆情实时分析(内含 Demo)

通过 Real-time OLAP,Kylin v3.0 能够对接 Kafka 数据源,并且实现秒级的数据查询延迟。从 v3.0.0-alpha 发布到现在,世界范围内已...

2019-10-03 09:10:00 232

转载 数据平台建设整体思路阐述和总结

数据工作的理解数据的每一次的输出,永远不会有bug,只有对和错。数据人永远是在怀疑和被怀疑,孤独和寂寞中完成。每次的输出可能只有一个数字,概率,猜测。。。但是其背后可能是...

2019-10-03 09:10:00 499

转载 浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)...

前言随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多,概念容易混淆,...

2019-09-29 02:41:45 826

转载 聊聊Apache Kylin在小米集团的应用 | 文末福利

点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们导读:本文将告诉你小米选用Apache Kylin的背景,以及在小米集团大数据平台的实践和应用。一、背景如...

2019-09-29 02:41:45 358

转载 程序员接私活的7大平台利器

阅读本文大概需要 3.2 分钟。我们程序员是一门技术工种,与互联网其他行业相比薪水会相对高一点,不过钱也不是那么好赚的,有利也有弊,都知道程序员相对累一点,加班也是常事。...

2019-09-28 00:04:38 422

转载 数据治理平台工具前世今生

前言伴随着企事业单位信息化不断的深入、各种技术持续的发展以及人们对数据治理的认知不断加深,数据治理工具在过去的20年也不断的发展,笔者以某世界500集团企业案例为原型,介...

2019-09-28 00:04:38 1663

转载 六脉神剑 | Apache Flink SQL 搞定实时数仓

孙金城,淘宝花名"金竹",Apache Flink Committer,阿里巴巴高级技术专家。目前就职于阿里巴巴计算平台事业部,自2015年以来一直投入于基于Apache...

2019-09-25 08:08:00 1556

转载 辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)

前言随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据...

2019-09-23 18:57:51 273

转载 你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库

By 数据仓库与Python大数据场景描述:今年有个现象,实时数仓的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。对于实时数仓...

2019-09-19 08:16:00 190

转载 漫画:什么是中台?

点击上方“数据仓库与Python大数据”,选择“置顶/星标”福利和干货 第一时间获取!没有中台的时代在传统IT企业,项目的物理结构是什么样的呢?无论项目内部的如何复杂,都...

2019-09-18 08:33:00 204

转载 如果你也想做实时数仓…

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变...

2019-09-13 08:30:00 148

转载 为什么Flink会成为下一代大数据处理框架的标准?| 文末送书福利

导读:本文将告诉你Flink是什么,以及为什么Flink会成为下一代大数据处理框架的标准。01 什么是Flink?在当前数据量激增传统的时代,不同的业务场景都有大量的业务...

2019-09-09 03:33:14 152

转载 数据湖(Data Lake)-剑指下一代数据仓库

数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前...

2019-09-06 08:12:00 570

转载 数据分析入门实战系列(二)Pandas

点击上方“数据仓库与Python大数据”,选择“置顶/星标”第一时间获取 精彩资讯!上一期我们了解了Pandas里面Series数据结构,了解了如何创建修改,清理Seri...

2019-09-06 08:12:00 209

转载 【offer谈判】终于面试通过了,我该怎么拿到满意的薪资呢?

点击上方“数据仓库与Python大数据”,选择“置顶”第一时间获取 精彩资讯!所谓“金九银十”相信很多小伙伴最近在接触新的机会。环境不好▼不可否认的事实是,今年的大环境是...

2019-09-01 18:15:38 1507

转载 数据分析入门系列(一) Pandas

Pandas这个东西在数据的世界里用的还是很频繁的,主要是用起来会比较方便。pandas是基于numpy的基础上进行开发的,所以安装pandas的时候会自带性的把nump...

2019-08-30 20:27:26 227

转载 除了SQL,你真的应该学点其他的硬通货

点击上方“数据仓库与Python大数据”,选择“置顶公众号”第一时间获取 数据ers 技术干货!0x00 前言最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊...

2019-08-27 12:15:00 141

转载 漫谈 | 一种通用的数据仓库分层方法

0x00 概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。因此,本文将指出一种通用的数据仓库分层方法,具体包含如下内容: 介绍数据分层的作用 提出一种通用的数据分层设计,以及分层设计的...

2019-08-26 13:31:56 162

原创 疑难杂症 | rm删除后df磁盘空间不释放

点击上方蓝色字体,星标置顶哦~目前10000+人已关注加入我们问题rm 删除文件后,df -h 磁盘空间不释放。原因一般说来不会出现删除文件后...

2019-08-20 02:04:16 862

原创 我们 | 单枪匹马,不如群狼作战!

『数据仓库与Python大数据』国内最具情怀的数据ers交流分享平台。由紫霞&悟空&白晶晶联合打造,爱分享、爱交友。专注分享数据仓库、大数据和Python...

2019-08-18 07:20:35 196

转载 推荐收藏 | 决策树,逻辑回归,PCA-算法面经

目录决策树简述决策树原理?为什么要对决策树进行减枝?如何进行减枝?简述决策树的生成策略PCA简述主成分分析PCA工作原理,以及PCA的优缺点?PCA中有第一主成分、第二主...

2019-08-15 13:25:28 393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除