![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据建模
数据建模
mlj365
本人目前从事数据挖掘工作,技术控。
古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。
就像考研一样,剩者为王!
展开
-
如何成为数据科学家?这有一条完整的学习路线和方法!
0x00 前言 数据科学家,一个被评为21世纪最“性感”的职业,近些年一直备受推崇。从事数据科学家的工作,不仅意味着你将能够在工作中实践前沿的技术去解决业务问题,同时意味着丰厚的薪水。这两者都能给你带来巨大的成就感。那么,问题来了,该如何成为一名数据科学家呢?本文将提供如下三方面的思路和方法:一个完善的学习路线一种能够督促你学习的机制数据科学领域一线工作者的技术和经验分享0x01 学习路线 数据科...转载 2020-04-16 13:17:43 · 161 阅读 · 0 评论 -
如何优雅地规划数仓体系
0x00 前言 数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程的理解、数仓建设的交流分享、数据的使用和问题排查、数仓健康度的评估都提供了极大的帮助。需要强调的是本节是从宏观上描述数仓的框架,具体到数据模型的细节对比、存储选型和管理、接入数据源管理等数仓建设的周边在本节不涉及。...转载 2020-04-15 16:54:38 · 152 阅读 · 0 评论 -
从马克思观点来看数据中台与数据平台的不同,这次清楚多了
就在前几年,人们在说"数据平台"四个字的时候,都是信手拈来,不用去想这四个字到底是什么含义,也不会产生什么思维上的混乱。 这种思想上的默契,在2019年被彻底打破了。来搅局的,正是耳熟能详、方兴未艾的“数据中台”。于是,朋友们就开始思考中台到底比平台先进在哪里,一定要给出个说法,目前有两个常见的观点:万能分层轮:数据中台在数据平台的上一层,数据平台提供基础设施,数据中台与业务对接。阴谋论:数据中台...转载 2020-04-15 16:16:19 · 215 阅读 · 0 评论 -
数据工程师该如何入门?
0x00 前言最近发现身边有不少小伙伴想转行做数据工程师,聊天的过程中发现大家对该如何入门有很多迷茫的地方,周末写篇博客记录一下。哪些人适合继续阅读数据工程师该如何入门?话题有点大,而且每个人的理解都很不一样,因此我们会先限定一下会对这个话题感兴趣的人群:做了几年其它软件开发,发现大数据方向更有前景在校的童鞋,毕业后想搞数据开发,但是学校没相关课程没搞过软件开发,对之前的工作没信心想搞互联网,发现...转载 2020-04-15 14:00:29 · 256 阅读 · 0 评论 -
漫谈数据开发工程师的技术广度
0x00 前言今天和朋友在聊天,聊到怎样在面试和与人沟通的过程中体现自己的技术广度,感觉挺有意思,整理分享一下。分两个点来聊:1.有哪些方面的技术广度可以提高;2.怎样提高。其中第一个点可以近似地转换为数据开发工程师的技能树,有所不同,但是可以按照这个思路来考虑。数据开发工程师这个职位其实可以干很多事情,因为凡是和数据相关的东西基本上都会有数据开发工程师的身影。比如说推荐系统,虽说会有推荐算法的存...转载 2020-04-15 13:58:55 · 165 阅读 · 0 评论 -
聊一聊数据倾斜那些坑
0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 文章结构先大致解释一下什么是数据倾斜再根据几个场景来描述一下数据倾斜产生的情况详细分析一下在Hadoop和Spark中产生数据倾斜的原因如何解决(...转载 2020-04-15 13:33:52 · 241 阅读 · 0 评论 -
别人家的元数据系统是怎么设计的
0x00 前言本篇分享是元数据管理的内容,主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin 在2016年新开源的项目:WhereHows,当然也有笔者的一点理解。Google 的论文整体描述十分详细,可以作为理论来学习,LinkedIn 已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展...转载 2020-04-15 13:14:53 · 263 阅读 · 0 评论 -
详解维度建模
0x00 前言前一篇已经对常用的几种数据模型做了简单的介绍,本篇主要对其中最常用的维度建模做一个深入的理解。0x01 什么是维度建模维度模型是数据仓库领域另一位大师 Ralph Kimball 所倡导,他的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建...转载 2020-04-15 13:09:13 · 813 阅读 · 0 评论 -
拉链表是什么
0x00 前言过了半年时间,对数据仓库的理解又有了一些不同的认识,翻出来之前写的关于拉链表的内容,稍作修改重新发出来。本篇将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。内容全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在 Hive 的大...转载 2020-04-15 13:07:31 · 1869 阅读 · 1 评论 -
缓慢变化维度
0x00 前言本文会分享数据仓库中和缓慢变化维度相关的内容。在看之前建议回顾一下和维度建模相关的知识点,可参考数据仓库系列文章。为什么会分享这个听起来很奇怪的东西?因为站在的笔者的视角中,只要是做数据仓库的小伙伴们,在工作中基本上都会接触和维度建模相关的内容,而谈到维度建模,就少不了会和维度表打交道。我们要谈的就是维度表相关的知识点。在正式开始之前,先解释一下什么是缓慢变化维度。笔者个人理解,缓慢...转载 2020-04-15 12:59:10 · 534 阅读 · 0 评论