自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

晓阳的数据小站

通过数据,让思考更多一点;通过分享,让技术深入人心。

  • 博客(13)
  • 收藏
  • 关注

原创 数据人指南:实用项目管理技巧

对于业务开发的同学而言,需求多、排期难,是一件非常普遍的事情,而采用怎样的项目管理技巧,能够帮助我们节约开发时间、提前排除开发中的隐患问题,帮助是很多的。这里给大家分享几个小技巧,希望能够帮到你。 第一个小技巧是重新审视项目上线时间。很多时候,我们之所以难以协调项目排期,是因为项目的上线时间卡的很死,那么这个项目是否一定要在规定的时间上线,是否可以延迟,或者是否有部分功能可以...

2020-03-31 23:21:09 303

原创 开源组件系列(10):集群化服务资源管理系统(Mesos)

目录(一)Mesos基本架构(二)Mesos资源分配策略(三)Mesos与YARN的对比Mesos最早是UC Berkeley的一个研究项目,用以解决编程模型和计算框架多样化环境下,不同框架之间的资源隔离和共享问题。尽管它的直接设计动机与YARN有所不同,但它的架构和实现策略与YARN类似,得到了一定范围内的认可,例如Twitter就在使用。(一)Mesos基本架构Meso...

2020-03-20 17:48:33 980

原创 大规模需求协作的挑战与思路

(一)基本挑战概述互联网公司的典型业务场景下,一个需求会涉及到运营、产品、前端、后端、数据、测试等不同部门的配合,一个需求正常情况下都需要拆解成多个模块,而其中的一些模块可能还涉及到其他模块的功能,导致需求完成的子目标比预期的多很多,需求的管理工作就会变得特别困难。例如,产品根据运营同学的需要,设计了某款产品,能够看到运营指标的变化情况,大家在评审完需求后,发现了如下几个方面的问题:一...

2020-03-18 20:58:28 538

原创 有关大型数据仓库三大痛点的个人看法

有人说,数据仓库搭建失败的概率非常高,是ERP之后最不靠谱的大型项目之一。往往在项目立项的时候,我们会给老板呈现出一幅非常美的愿景图:响应快、业务驱动、智能化……但当项目上线之后,才会发现这个项目往往华而不实,要什么没什么,慢慢的投入就会逐步减少,直到项目陷入泥潭……那么数据仓库在搭建过程中,遇到的核心问题是什么,我们又是怎样应对这些核心问题的,今天就挑选三个代表性的问题,来进行一一的解答。...

2020-03-16 14:58:48 2043 1

原创 数仓那点事:从入门到佛系

(一)初识数仓每个人对于数仓的理解,都源自于大数据,而大数据有源自于那个神奇的故事:从前有一家超市,它有一个怪现象,尿布和啤酒赫然摆在一起出售。外行人不明所以,但内行人却看到了尿布和啤酒的销量双双增加。为什么呢?正是因为大数据发挥了它最原始的作用:组合分析。妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是...

2020-03-12 13:36:12 2032

原创 程序员成长路径概述:四个维度教你如何快速提高自己

程序员和金融是当前社会里唯二的高薪水岗位,努力一把,每月几万收入都不是什么问题。很多人拿程序员和医生、律师作比较,其实是不同的,医生、律师的经验可以复用,年纪越大,经验越多,收入也就越高。但程序员和金融民工,很多时候,学习的技能更新换代很快,需要不断的学习新知识,才能跟上时代的步伐。(一)学习能力如何成长 1.工具使用的熟练度:为什么工具使用要放在第一个呢?我...

2020-03-11 18:12:32 1472

原创 排序算法的时间复杂度与空间复杂度对比

2020-03-09 23:09:02 325

原创 大数据系统下的数据安全注意事项

在大数据时代,越大的公司,面临的数据安全风险越高,简要而言,主要分为六个部分: 1. 后台被黑客攻击,例如SDK泄漏关键服务IP地址; 2. 数据被爬取风险,例如简历信息被外界抓取; 3. 内部使用风险,例如采集的用户数据是否存在泄漏风险; 4. 生态公司风险,例如收购的公司数据安全规范能够达成一致; 5. 开放数据...

2020-03-09 23:06:52 1175

原创 开源组件系列(9):资源管理与调度系统(YARN)

目录(一)概述(二)YARN基本架构(三)YARN高可用性(四)YARN工作流程(五)YARN资源调度器(六)YARN的具体调度场景(七)YARN资源隔离(八)YARN生态系统(九)资源管理系统架构演化(一)概述YARN作为一个通用的资源管理系统,目标是将短期作业和长期服务混合部署到一个集群中,并为它们提供统一的资源管理和调度功能。YARN是大数据...

2020-03-09 22:45:13 1425

原创 开源组件系列(8):分布式结构化存储(Zookeeper)

(一)分布式协调服务的意义分布式协调服务在分布式应用中是不可缺少的,通过引入类似于文件系统的层级命名空间,并在此基础上提供一套简单易懂的规范语言,能够帮助用户轻易的实现诸如Leader选举、分布式锁及分布式队列等功能。Zookeeper已经广泛的应用在开源系统中,包括HDFS、Yarn、HBase等组件中。接下来通过Leader选举和负载均衡为例,说明分布式协调服务存在的意义和基本...

2020-03-06 09:41:46 765

转载 设计一种数据结构,实现常数时间的增删改查

LeeCode经典题:常数时间插入、删除和获取随机元素原题:设计一个支持在平均 时间复杂度 O(1) 下,执行以下操作的数据结构。insert(val):当元素 val 不存在时,向集合中插入该项。remove(val):元素 val 存在时,从集合中移除该项。getRandom:随机返回现有集合中的一项。每个元素应该有相同的概率被返回。解答:我们需要在平均复杂度为 \ma...

2020-03-03 09:07:13 1297

原创 Data Vault模型初探

(一)Data Vault简介Data Vault模型自2001年起便被提出,原本用于在市场上作为表征系统的一个营销术语。Data Vault的翻译为公共基础性仓库架构,包括了建模、方法论、架构和实施四个方面的实践过程。Data Vault有1.0和2.0两个版本,1.0版本主要关注数据建模部门,而2.0部分主要关注如何提供灵活、可扩展的模式。本文所涉及内容主要为2.0版本。(...

2020-03-02 22:12:04 1166

原创 开源组件系列(7):分布式结构化存储(HBase)

目录(一)概述(二)HBase数据模型(三)HBase基本架构(四)HBase内部原理(五)HBase访问方式(一)概述长期以来,传统的关系型数据库(Mysql)等因为其易懂的关系模型、高效的查询引擎和易用的查询语言而被广泛应用,但在一些互联网应用场景中,数据量的膨胀非常快,基于关系型数据库的方案很难满足系统扩展的需求。同时,引入了分布式文件系统HDFS之后...

2020-03-01 20:05:31 785

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除