自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 由浅入深谈数据湖

欢迎关注:“晓阳的数据小站”,更多精彩文章,等着你!|0x00 什么是数据湖数据湖的概念最初是由大数据厂商提出的,可以简单理解为一个集中存储数据的数据库,不论是结构化数据or非结构化数据,海量数据or少量数据,都能够支持存储和计算。就像在湖中有多个支流进入一样,结构化数据、非结构化数据、日志数据、实时数据,都流入了同一种数据存储结构之中,并进行不同类型的分析处理,以指导做出更好的决策。数据湖通常采用Hadoop作为数据的承载对象,随着企业规模的扩大,不同类型的数据越来越多,最终所有企业或个人相关的数

2020-11-04 08:48:40 73

原创 浅谈模型重构

|0x00 从一次会议说起笔者最近参加了一个线下的交流会议,不仅邀请了一些领导参加,也有很多一线的研发工程师,大家针对某些具体的问题,展开相互的讨论。讨论的过程很有意思,首先请领导发言,领导就公司的整体情况进行了表述,同时对于接下来的管理重点做了一个总结,等领导发言之后,会场里的一线研发工程师们面面相觑,自然也就顺着领导的发言思路,对公司一些具体战略的执行,进行了分组讨论。讨论结束后,有个同学提出了问题,咱们这个会议的初衷是为了解决具体问题,但会议搞完了,好像我们并没有讨论任何具体问题。为什么把这件事情

2020-10-05 09:06:30 164

原创 浅谈领域模型

|0x00 领域模型是什么领域模型是什么?一句话:“经济基础决定上层建筑”中的“经济基础”,是帮助理解复杂业务领域问题的基石。有人说:“领域模型是一个商业概念,同行业的企业,一定有内在的共性,是帮助系统分析人员认识现实业务的工具。”领域,即边界的意思,有了清晰的边界,协作才有了利益的基础;模型,即知识体系,深入理解了业务知识,开发才不会走过多的弯路。一般意义上的领域模型是面向软件工程领域的,而现实意义的领域模型则包含了商业模式等广义上的概念。很多人一上来理解领域驱动设计(DDD),基本都是一头雾水,因

2020-10-05 09:04:32 224

原创 浅谈架构方法论

|0x00 架构思维相信很多人,谈起架构,第一印象,就是各种各样的架构图,有一个高高在上的人,坐在那里,阔谈自己的理念。诚然画图是架构师的一项日常工作,但通过一张图,来道出事物发展的本质,却是另外一种功夫。做了这么多年的程序员之后,如果只有打开了Idea才会思考架构,或者是敲起了Sql代码才会理解业务,细细想来,只能是自己的功夫不到,理解不透罢了。架构的第一印象,不应该是多流行的技术,或者是多么高性能的框架,而是它能不能满足业务的需求,既不能跑不动,也不能太超前。那么架构是什么?从理论上讲,它描述了系

2020-10-05 09:01:13 129

原创 学点数据运营的知识

|0x00 什么是数据运营?任何一种商业模式,都不能缺少用户、产品、运营这三种基本的元素;任何一个产品,都需要配合好的运营体系才能发挥出它对用户的价值。而所谓的数据运营,就是通过数据来建立产品与用户之间的关系,数据是最核心的干预手段。很多人想到运营,就把这个岗位与市场啊、策划啊等等联系起来,要求有创意、能拉通、懂业务…… 如果再有几个亮眼的Case就更棒了。哪有这么复杂,只要能达成业务目的,所有的手段都是运营的工作。简单点,就是完成目标才是运营首要的工作,会什么是其次的。在互联网公司中,运营的工作如果

2020-09-03 09:41:08 172

原创 通过数据看精细运营

|0x00 从芯片的制造谈起之前在知乎看到了一篇文章,讲芯片制造的难度,颇有感触,这里截取一段与大家分享一下:“制造芯片两千多步工序。每道工序合格品99.9%,算下来总良品率是多少?13.5。不要小看99.9%,这已经是3西格玛了,我国企业能做到3西格玛的并不多”。某位大佬在公开场合说过,要把芯片的成本做到跟沙子一样,这种论断,听一听就好了。为什么今天引出了这个话题呢,是因为最近一直在读一本书,叫作《企业全生命周期数据分析应用之道》。就像一本工具书一样,对于企业数据该怎么做,写了种种的方法论与实践经验

2020-09-03 09:38:41 233

原创 数据产品的新思考

|0x00 从数据产品价值说起数据产品,顾名思义,是将数据作为主要的展示形式,用于帮助业务做决策的一种产品。不论是Excel,还是自助取数平台,都可以称之为数据产品。由于产品本身的服务对象是人,因为需要通过非常直观的形式来快速了解数据价值,这就使得数据可视化的能力显得尤为重要。在业务发展的初期阶段,数据产品的目的是先让业务看到我们的数据,因而这个阶段对于报表类的需求会非常旺盛;当报表产品基本成型,明细数据都支持了下钻之后,通过数据分析拆解指标内涵,将决策的结果直接告知用户,就成为了主要目标;最后就是要把

2020-09-03 09:35:02 174

原创 数据模型如何论好坏

|0x00 数据模型的选择最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。如果论这四种方法,在设计思路上的好坏,那么各有千秋。但如果问,那种模型最为成熟,那么恐怕范式和维度就胜出了,而互联网行业几乎只能选择维度建模,因为它的实践经验是最多的。这就有点像软件或者框架的比较,Hadoop就一定好吗?Java就一定优于Python吗?并不是。但Hadoop一定最成熟,Java岗招聘人数最多。因为生态建

2020-08-14 18:04:35 194

原创 我尊重你的选择,也相信自己的判断

这是一篇散文。|0x00 选择我一直认为,每个人做的选择,在当时的情景看来,都是最合理的选择,无论旁人看起来如何的不靠谱。无他,趋利避害的人性使然。每个人的职业生涯都有各种不同的选择,或为了一份大厂的经历、或为了一种轻松的生活、或为了一份赚钱的机会、或为了自己的人生理想。但技术人,由于其职业的特殊性,往往其职业发展都是相似的:【技术达人】 - 【独当一面】 - 【领域专家】 - 【团队Leader】 - 【部门领导】。只要认真工作5-7年,成为某个领域的专家,也就是P7的级别,并不难。但是再往后走,讲

2020-08-12 23:23:54 149

原创 简单聊聊数据质量

|0x00 数据质量该怎么理解大多数数据的从业者,对“数据质量”并没有很深的理解,倒是在面试中经常被问起这个问题。之所以对于“数据质量”理解不深刻,也是因为没有亲身经历“资产损失”,没有站在台前,直面“用户”或者“客户”的不信任。数据质量其实是产品口碑的一部分,是“用户”或者“客户”信任产品的基石。如果一定要给数据质量下一个定义,我倾向于用三个“不”来总结,即“不丢失”、“不错误”、“不延迟”。如果引申到日常的架构中,就是代码逻辑正确、技术框架稳定可靠、按时保质交付数据。看起来定义简单,实则落地很有

2020-08-09 16:27:26 165

原创 一些项目管理的思考

|0x00 关于周会和周报说起周会,可能大多数的团队,都在以流水账的形式汇报自己的工作:A做了什么、B做了什么……以此类推。如果有特殊的情况,则简单说一下,具体的方案也要等到会后讨论了。周报也是类似,我们越来越强调周报要“简单”、“简短”,背后也是不希望再以流水账的形式说自己做了什么,久而久之,不仅写的人疲惫,看的人也没什么兴趣在周报上面了,只会复制粘贴一下重点,然后继续发团队周报。这其实是一个不太好的趋势,那就是团队的工作越来越业务化了,每个人都在从事自己的事情,自然就谈不上团队中的“横向互动”。对于

2020-07-27 21:41:33 142

原创 学点负面情绪的抗争能力

|0x00 团队的“结构性”矛盾最近在工作中,遇到了一种“结构性”矛盾,即当前的技术实现方案,用到了大量的自动化工具,因而产生了很多工作上的模糊地带。例如数据同学利用自动化工具搭建了报表,但应交互的要求,样式要修改,那么这部分工作量应该谁来承担?数据、前端、工具方,就各执一词了。所以“自动化”并不一定真的能提效,关键看谁是强势方。在这一波冲突中,作为数据很受伤,天天被提“前端”BUG的感受,很不好,所以就想寻找一些能够安慰自己的方法,于是就盯上了《大明王朝1566》这部电视剧,看完之后,觉得自己,在精

2020-07-20 22:08:25 128

原创 数据人的思维惯势与思维体系

数据人的思维惯势每一名数据的从业者,都有一颗成为技术大牛的心。自毕业起,我们就为自己贴上了“程序员”的标签,“ACM”、“BAT”、“Coder”…这些极具行业特色的词汇,对于每一位年轻人,都有着莫大的吸引力,“成为受人敬仰的大牛”,是每个年轻人心中潜在的梦想。在走上工作岗位之后,这些原生的梦想,依旧在驱动着每个人不断的学习与前进,即便是每天生活在“不会”、“不懂”、“不能”的残酷现实之下,依旧在持之以恒的努力,完成个人技术能力积累第一阶段。正式因为技术积累的痛苦,加深了每个人对于自己“技术人”角色的

2020-07-07 18:52:17 168

原创 天下数据,唯快不破

|0x00 软件行业看数据从传统软件行业的视角,来看待互联网人搞数据的方式,感觉像是时代的倒退。过去搞了很多的软件开发模型,例如瀑布、螺旋、敏捷等,都是以用户的需求作为出发点,将一个大型项目,按照迭代的方式,拆解成子项目,并对每个具体的单元进行成果测试,从而实现快速开发的目的。可以说,采用项目管理的方式做需求,可以对产出结果的质量、周期进行比较精准的卡控。但并不是每个人都会按照统一的方式做开发,因此后续又提出了“设计模式”的概念,用于对开发中难以标准化的地方,做理念上的指导。在长达三十年的实践过程中,这

2020-06-30 20:28:12 157

原创 突然火了的实时数仓
原力计划

|0x00 数仓为什么要实时去年开始,实时数仓的概念突然火了。也许是传统的离线数仓搞了很多年,技术相对成熟了,因此大家都把注意力放到了挑战性更高的实时上来;也许是随着存量市场竞争的到来,对于速度的要求越来越快,T+1已经不能满足数据的获取要求了,实时的构建需求也就应运而生了。总之,时效性开始大于分析性。文本简单介绍实时数仓的一些基础理论,更系统性的理论,仍然行业需要更大范围的应用和总结。总之,这是一块有前景的新领域,值得探索。|0x01 实时数仓的技术要求高并发性未来的实时数据一定不是仅仅给几

2020-06-25 17:33:43 2200

原创 一号位是一种心态,而不是职级

|0x00 职级的晋升只是能力的附带品我一直认为,数据研发,在职级到达P7之后,就不存在明显的技术代差了。搞数据的,不论是数据仓库、还是数据分析,还是其他工种,都是一门“实践出真理”的职位。书本上的知识终究是一种理论,落到具体的工作中,都是要经过业务的残酷历练,才能深刻的体会到方法论的重要性,并熟练掌握和应用在不同的场景中。当你熟练掌握了常见的方法论,并且能够指导新人时,P7就是自然而然的事情了。但从P8开始,场景就完全不同了。不做技术的Team Leader,似乎很难在这个层级上立足。虽然说我们的

2020-06-19 21:10:42 244

原创 听说你的需求做不完

|0x00 需求真的多吗?需求太多,是程序员们共同面对的困局。从前端到后端、从数据到分析、从交互到测试,几乎每个人都很忙。大公司的用人标准,早期有一个很常见的说法,叫作“三个程序员,拿四个人的工资,做五个人的事情”。在行业高速发展期,给更多的钱,确实非常吸引人。但后来,行业发展不像早期那么快速,内卷的趋势隐隐然在加剧,干脆就把“996”当作了工作的常态。这种情况下,需求多,让大家自觉的加班工作,看起来就是很自然的现象了。但是,你的需求真的多吗?某种意义上是的,产品不断的在提需求,如果业务高速发展,那

2020-06-19 20:09:53 421

原创 你所做的产品,并不是数据产品

|0x00 你真的理解数据的价值吗?前一阶段,木东居士分享了一个案例,个人认为很有代表性,这里简略叙述一下,作为问题的起点:一位朋友从运营晋升为管理层,开始带团队,因为朋友本身是运营出身的,所以对于业务的诉求,非常了解,但团队成员大多是技术出身,总是get不到业务需求的点,容易陷入到技术的追求中不可自拔。其实这个问题并不是一个孤立的现象,而是普遍的问题,那就是做数据的同学,从幕后走到台前的过程中,会有一种身份上的不适应,也就是无法从技术视角跳出来,无法理解业务视角的痛点和问题。车品觉在《决战大数据》

2020-06-02 19:03:18 369

原创 Facebook的天秤币是什么,能否颠覆现有的金融体系?

|0x00 Libra是什么意思大家好,这里是科普博主,晓阳。这一期,我们来聊聊数字货币,以Facebook的Libra为例。这个货币国内也翻译成:脸谱天秤币。如果问天秤币是什么,一句话就可以解释:“无国界的数字货币”。作为拥有27亿人口的社交帝国,Facebook的领地涵盖了整个世界,Facebook非常想打造一个私有的数字中央银行,拥有独立的货币大权。作为一名中国的普通消费者,我们已经习惯了支付宝、微信带来的各种便利,中国的大城市差不多已经实现了无现金社会。但老外就没有这么幸运了,迫切的需要一群牛逼

2020-05-30 17:18:00 778

原创 数据人如何做好能力积累

| 0x00 学习的力量从毕业开始,数据人就要奋斗在学习的第一线上。数据开发与Java不同,它要求一个更高的起点;数据开发与Java相同的是,成为专家都需要一个长期的学习过程。毕业伊始,数据人就要奋斗在读论文的道路上。大数据不得不讲神器的Google三大论文,你可以骂它看不懂,你可以骂自己英语不好,但是你确实要看的,不推荐你看中文版,会让你误解很多概念和词汇,还是要从英文的开始看起。MapReduce可谓是总结了大数据计算的核心:分而治之。如果觉得太难懂,吴军老师有一本《数学之美》,有一章也是说这个东

2020-05-28 17:01:17 285

原创 简单聊聊数据湖

数据湖是什么“数据湖”最近好像一下子火了,远比“数据仓库”要吃香,在做云计算的公司都在主推这一概念。关于这个概念的标准解释,不论是Wiki也好、AWS也罢,基本上都集中在几个共性上:存储能力:支持企业数据的海量存储需求;数据类型:支持结构化、半结构化及非结构化数据;数据管理:完善的数据信息管理能力,包括但不限定于权限、数据格式、血缘追踪等;个性化分析:不仅要支持离线批量处理,也要支持实时流式处理,以及交互式分析需求;生命周期管理:原始、中间、结果数据的生产与管理;可扩展性:当系统整体遇到瓶颈

2020-05-18 17:59:33 248

原创 漫谈数据治理之四:企业数据该怎么搞
原力计划

企业数据的特点在绝大多数的互联网公司中,数据仓库都是面向用户的数据建设,如广告、电商、游戏等,相对而言都有比较稳定的业务形态和统计方式。但有一个方向是例外的,那就是企业数据。不论是阿里、腾讯,还是传统的大企业,任何一家企业做大了之后,内部的组织和管理方式都是非常复杂的,且变动频繁的,如果数据团队面向的是企业数据建设,数据治理的场景、方式都会有很大的部分,本篇文章重点分析一下企业数据的治理方式。从两个方面来谈一下企业数据的特点:业务方面和系统方面。首先说业务方面,有四个特点:不同主题的数据相对独立:

2020-05-16 19:24:26 954

原创 技术新人的大数据之路

不可否认,大数据学习最重要的是学习的能力,这种能力要远比你掌握的知识多少要重要,所以,练习大于理论,加油吧。首先,大数据不得不讲神器的Google三大论文,你可以骂它看不懂,你可以骂自己英语不好,但是你确实要看的,不推荐你看中文版,会让你误解很多概念和词汇,还是要从英文的开始看起:http://pan.baidu.com/s/1o6G8PGAMapReduce可谓是总结了大数据计算的核心:分而治之。如果觉得太难懂,吴军老师有一本《数学之美》,有一章也是说这个东西的,很简洁易懂...

2020-05-14 17:01:14 143

转载 二分查找模板分析

模板说明:你在网上看到的 99% 的二分查找问题会归结于这 3 个模板中的一个。有些问题可以使用多个模板来实现,但是当你做更多的练习时,你会注意到一些模板比其他模板更适合某些问题。注意:模板和它们的差异已被彩色标注如下。这 3 个模板的不同之处在于:左、中、右索引的分配。 循环或递归终止条件。 后处理的必要性。模板 #1 和 #3 是最常用的,几乎所有二分查找问题都可以用其中之一轻松实现。模板 #2 更 高级一些,用于解决某些类型的问题。这 3 个模板中的每一个都提供了一个特定

2020-05-14 09:31:55 140

原创 漫谈数据治理之三:流程上的规范化

治理理论概述我们目前所积累的数据治理经验,大多数是在互联网场景下的,且与自己工作高度相关。如果想更进一步的搞好数据治理,就应该看一下业界相关的一些权威机构的理论。以国际数据管理协会,也就是DAMA,协会提供了一种DMBOK方式,覆盖了企业数据管理领域的十个方面,十分适合阿里腾讯这种大型企业。可以说,这是一个很不错的参考框架,用来对比我们目前的数据管理工作,寻找不足之处。下图为数据管理十方面理论...

2020-05-07 20:56:42 177

原创 漫谈数据治理之二:思想上的体系化

数据的滚雪球效应现代数仓体系中,数据数量的高速增长已经不是什么新鲜事了,在大数据的作用被业界所认知到后,几乎所有对于业务有价值的行为,都将以数据的形式被收集。虽然这些数据很有价值,但在体现数据的价值之前,数据存储的成本已经扛不住了。据可靠统计,大公司每年数据的存储量以60%的速度在增长,5年后业界的数据规模就将达到今天的10倍,数据的滚雪球效应正在体现。数据暴增带来的系统风险数据暴增不仅带来...

2020-04-29 09:09:48 192

原创 漫谈数据治理之一:计算与存储压力

背景概要做数据的同学都能够有体会,当我们做业务时间长了以后,数据表的数量就会变得庞大无比,很多过去的逻辑,如果负责的同学离职了,那么能再看懂它的人就很少了。久而久之,就造成了表一大堆,没人敢动的问题。等到计算或者存储遇到瓶颈了,回过头来再改,会让人痛不欲生。主要痛点只建表,不删表:绝大多数做数据工作的同学,都没有及时清理无用表的习惯。交接过程产生漏洞:由于业务的问题比较繁琐,理解起来有一...

2020-04-23 20:13:32 170

原创 简单说一说数据中台

中台的起源与疑惑“中台”某种意义上是一个正宗的中国概念,早在2015年,马老师访问过北欧的Supercell游戏公司之后,便提出了这个概念。随之而来的,是阿里带动的“大中台、小前台”运动。这个概念听起来还是非常不错的,因为整合技术力量,既能够有效降低研发成本,也能够带来业务上更多的试错机会。但当大家投入进去之后才发现,中台的建设成本如此之大,乃至于一般小公司无法负担起基础的成本。大公司倒是搞好了...

2020-04-21 09:16:50 206

原创 开源组件系列(13):交互式计算引擎

概述产生背景  在开源大数据领域,交互式引擎并不是从一开始就出现的。起初,大数据领域数据处理引擎以MapReduce为主,但MapReduce引擎采用了批处理的理念,数据处理能力低效:IO密集型:Map阶段中间结果写磁盘,Reduce阶段写HDFS,多个MapReduce作业之间通过共享存储系统HDFS交换数据。任务调度和启动开销大,大量任务需要分布式调度到各个节点上,且每个任务需启动一...

2020-04-16 12:42:53 193

原创 开源组件系列(12):DAG计算引擎Spark

(一)概述Spark是在MapReduce的基础上产生的,借鉴了大量MapReduce实践经验,并引入多种新型设计思想和优化策略。我们首先看一下MapReduce的局限和Spark在此基础上做出的改进。MapReduce的缺陷:1.仅支持Map和Reduce两种操作:由于MapReduce提供的编程结果比较低层次,因而实现一些常用的功能,如排序、分组等,需要编写大量的代码。...

2020-04-09 19:18:46 348

原创 开源组件系列(11):批处理引擎MapReduce

(一)MapReduce设计目标 MapReduce诞生于搜索领域,主要解决搜索引擎面临的海量数据处理扩展性差的问题,很大程度上借鉴了Google开源的论文思想,包括了简化编程接口、提高系统容错性等特征。如果我们总计一下MapReduce的设计目标,主要有以下几个:简化编程接口:传统的分布式程序设计非常复杂,用户需要关注的细节非常多,例如数据分片、传输、通信等问题...

2020-04-03 10:57:37 150

原创 数据人指南:实用项目管理技巧

对于业务开发的同学而言,需求多、排期难,是一件非常普遍的事情,而采用怎样的项目管理技巧,能够帮助我们节约开发时间、提前排除开发中的隐患问题,帮助是很多的。这里给大家分享几个小技巧,希望能够帮到你。 第一个小技巧是重新审视项目上线时间。很多时候,我们之所以难以协调项目排期,是因为项目的上线时间卡的很死,那么这个项目是否一定要在规定的时间上线,是否可以延迟,或者是否有部分功能可以...

2020-03-31 23:21:09 102

原创 开源组件系列(10):集群化服务资源管理系统(Mesos)

目录(一)Mesos基本架构(二)Mesos资源分配策略(三)Mesos与YARN的对比Mesos最早是UC Berkeley的一个研究项目,用以解决编程模型和计算框架多样化环境下,不同框架之间的资源隔离和共享问题。尽管它的直接设计动机与YARN有所不同,但它的架构和实现策略与YARN类似,得到了一定范围内的认可,例如Twitter就在使用。(一)Mesos基本架构Meso...

2020-03-20 17:48:33 105

原创 大规模需求协作的挑战与思路

(一)基本挑战概述互联网公司的典型业务场景下,一个需求会涉及到运营、产品、前端、后端、数据、测试等不同部门的配合,一个需求正常情况下都需要拆解成多个模块,而其中的一些模块可能还涉及到其他模块的功能,导致需求完成的子目标比预期的多很多,需求的管理工作就会变得特别困难。例如,产品根据运营同学的需要,设计了某款产品,能够看到运营指标的变化情况,大家在评审完需求后,发现了如下几个方面的问题:一...

2020-03-18 20:58:28 171

原创 有关大型数据仓库三大痛点的个人看法

有人说,数据仓库搭建失败的概率非常高,是ERP之后最不靠谱的大型项目之一。往往在项目立项的时候,我们会给老板呈现出一幅非常美的愿景图:响应快、业务驱动、智能化……但当项目上线之后,才会发现这个项目往往华而不实,要什么没什么,慢慢的投入就会逐步减少,直到项目陷入泥潭……那么数据仓库在搭建过程中,遇到的核心问题是什么,我们又是怎样应对这些核心问题的,今天就挑选三个代表性的问题,来进行一一的解答。...

2020-03-16 14:58:48 384

原创 数仓那点事:从入门到佛系
原力计划

(一)初识数仓每个人对于数仓的理解,都源自于大数据,而大数据有源自于那个神奇的故事:从前有一家超市,它有一个怪现象,尿布和啤酒赫然摆在一起出售。外行人不明所以,但内行人却看到了尿布和啤酒的销量双双增加。为什么呢?正是因为大数据发挥了它最原始的作用:组合分析。妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是...

2020-03-12 13:36:12 1424

原创 程序员成长路径概述:四个维度教你如何快速提高自己

程序员和金融是当前社会里唯二的高薪水岗位,努力一把,每月几万收入都不是什么问题。很多人拿程序员和医生、律师作比较,其实是不同的,医生、律师的经验可以复用,年纪越大,经验越多,收入也就越高。但程序员和金融民工,很多时候,学习的技能更新换代很快,需要不断的学习新知识,才能跟上时代的步伐。(一)学习能力如何成长 1.工具使用的熟练度:为什么工具使用要放在第一个呢?我...

2020-03-11 18:12:32 561

原创 排序算法的时间复杂度与空间复杂度对比

2020-03-09 23:09:02 135

原创 大数据系统下的数据安全注意事项

在大数据时代,越大的公司,面临的数据安全风险越高,简要而言,主要分为六个部分: 1. 后台被黑客攻击,例如SDK泄漏关键服务IP地址; 2. 数据被爬取风险,例如简历信息被外界抓取; 3. 内部使用风险,例如采集的用户数据是否存在泄漏风险; 4. 生态公司风险,例如收购的公司数据安全规范能够达成一致; 5. 开放数据...

2020-03-09 23:06:52 258

原创 开源组件系列(9):资源管理与调度系统(YARN)

目录(一)概述(二)YARN基本架构(三)YARN高可用性(四)YARN工作流程(五)YARN资源调度器(六)YARN的具体调度场景(七)YARN资源隔离(八)YARN生态系统(九)资源管理系统架构演化(一)概述YARN作为一个通用的资源管理系统,目标是将短期作业和长期服务混合部署到一个集群中,并为它们提供统一的资源管理和调度功能。YARN是大数据...

2020-03-09 22:45:13 278

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除