![](https://img-blog.csdnimg.cn/20200206072726208.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据开发
文章平均质量分 83
介绍常用的开发方式及具体的业务案例
晓阳的数据小站
欢迎大家关注微信公众号:晓阳的数据小站,一同探索大数据的技巧~
展开
-
数据资产的管理方法
|0x00 数据资产的重要性在最近几年的业务发展中,数据都是各大公司建设的“宠儿”,几乎所有的业务都围绕数据展开,其重要性堪比信息化时代的“石油”。因此,大多数的公司都会建设自己的数据资产平台,一方面是为了做一些诸如统一数据口径一类的基础工作,另一方面也是为了深入挖掘数据的价值,为企业带来高额的利润回报。回看过去的发展历史,围绕着数据的采集、建设、管理和应用,已经基本形成了体系化的建设方法。运营在做定价的时候,需要数据的支持;财务在评估预算的时候,需要数据的支持;法务在判定风险时,同样需要数据的支持……原创 2021-12-06 20:46:51 · 434 阅读 · 0 评论 -
对于提升团队研发效率的思考
|0x00 研发效率提不上去的根因数据,通常也会视为“研发部门”的一部分,自然也面临需求交付效率、数据质量、稳定性等一系列问题,其实在研发眼中,一切问题的根因似乎可以总结为“需求多、压力大”,有充分的时间,是可以解决掉质量相关的问题。但事实上,大部分的公司,都是在业务的狂奔中去做需求,一旦业务发展停滞下来,要么意味着要人员优化了,要么意味着没什么需求可以做,程序员可以打酱油了,这都不是一种健康的发展状态。因此,解决业务高速发展情况下的研发效率问题,是我们的一门必修课。在本文中,我试着把一些做不好的问题原创 2021-11-29 20:33:16 · 829 阅读 · 0 评论 -
新人数据技术如何快速提升
很多时候,新人技能并不局限于刚参加工作的年轻人,换一份新工作时,也能够根据一些技巧,来快速的熟悉和学习新公司的技术体系。|0x00 初来乍到对于数据技术而言,基础的技能有三种,一个是熟悉你所使用的数据平台和工具,一个是熟悉开发过程中的流程与规范,最后一个是熟练使用开发使用的语言。对于数据平台和工具而言,一般情况下都是在Hadoop生态下做开发,但对于一些有特殊要求的团队,Spark和Flink已经得到了成熟的应用,这时候在熟悉平台的操作前,先通过官方文档,熟悉这种技术框架的设计原理,对于后续理解程序的原创 2021-10-26 19:36:51 · 160 阅读 · 0 评论 -
做好研发管理的四点总结
|0x00 做好项目管理研发管理的范畴比较广,但个人认为,不论是Java、Python这样的后端开发,或者是IOS、安卓这一类的客户端开发,还是数据仓库、数据研发这一类的数据岗位,其本质都是需要通过技术来赋能业务的工种,都需要有完整的研发管理体系。常见的研发管理,有基于PMP做过程管理的,有基于敏捷做变化适应性的,有基于CMMI做瀑布开发的,而互联网常见的研发模式,则是“OKR - 项目 - 需求/缺陷”这一套方法,在细节执行层面有一定的不同。因此,项目就是团队目标的第一体现,关系到了KR的完成情况,原创 2021-10-19 18:01:50 · 341 阅读 · 0 评论 -
数据开发如何巧妙解决业务问题
|0x00 数据研发的技能栈“你的价值是什么?”这可能是做数据的同学,最经常被问到的问题。早期数据从业者是比较开心的,能够应用Hadoop框架做工具,就已经能够解决mysql时代面临的海量数据问题了,价值不言而喻。有道是:“会写MR,月薪过万”。但是如今,随着工具的不断发展和完善,尤其是商业化方案的高度完善,会使用大数据工具,来处理海量数据,已经是从业新人的标配了,甚至很多非专业的人士都能够轻松驾驭。这个事情,如何更进一步,利用数据技术,来解决业务问题,就是行业对于从业者的新要求了。|0x01 问题原创 2021-09-23 19:25:37 · 184 阅读 · 0 评论 -
数据治理实操
|0x00 数据治理的思路数据治理是互联网公司中,普遍遇到的痛点,不论是作为业务支持的“数据仓库”部门,还是承担辅助角色的“数据分析”部门,天天被人追着问:“我们有什么数据?这数据对吗?为什么还没跑出来?你到底能不能做?”当矛盾对喷到“忍无可忍”时,数据治理工程便提上了“台面”,因为开发没了服务对象等于丢了饭碗,而业务脱离数据在互联网时代又等同于“裸奔”,双方打的难解难分。但其实数据治理是一项比较大的工程,在实际工作中,我们需要缩小范围,“把好钢用在刀刃上”。因此,个人倾向于如下的概念,即:数据治理原创 2021-07-27 19:40:08 · 243 阅读 · 0 评论 -
探索流批一体结构下的实时数仓
|0x00 越来越高的时效性要求在数据仓库的建设过程里,我们一直秉承着“离线先行”的方针,因为离线的技术栈非常成熟,开发起来很快,同时监控工具也做的比较完善,出了问题能及时发现、及时处理。过去我们处理实时的需求,一般都会转化为准实时的模式,例如分钟级调度,但毕竟它不是完全的实时模式,不过绝大多数情况下,应对业务诉求也是足够了。但随着Flink为代表的新一代框架的出现,很多业务已经不再满足于做准实时的开发了,完全实时化的数据流、面向实时做的数仓设计,就成为了数据和业务都关心的高价值项目。哪怕是没有实时的诉原创 2021-06-17 09:12:10 · 303 阅读 · 0 评论 -
分布式计算技术
|0x00什么是分布式计算这里我引用知乎上的介绍:“分布式计算(Distributedcomputing)是一种把需要进行大量计算的工程数据分割成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。”讲到分布式计算,大多数人第一时间想到的,就是“Hadoop”,它的诞生就是为了解决海量数据的计算问题。Hadoop以谷歌三大论文为蓝本,GoogleFS、MapReduce、BigTable,这三篇论文奠定了大数据算法的基础。但这些论文毕竟是2003年就...原创 2021-04-28 10:46:44 · 1502 阅读 · 0 评论 -
分布式协调服务导论
|0x00分布式系统缘何兴起什么是分布式?简单来讲,是将相同或者相关的程序,运行到多台服务器上,实现特定目标的一种方式。从外部的视角来看,一组服务器,展现给用户的是一个统一的整体,使用起来就像单机系统一样。因此,不论是数据的并行计算,或者是任务的并行调度,都是分布式的一种形态,而我们对分布式发展的最主要驱动力量,则来自于对“性能、可用性和可扩展性”的不懈追求。从发展过程上讲,分布式系统经历了单机-并行-分布式三个阶段,以“火车订票系统”为例,我们能够明显感知到这种发展的过程。...原创 2021-04-20 10:24:01 · 384 阅读 · 0 评论 -
浅谈数据埋点
### |0x00 如何理解埋点埋点是数据采集的专用术语,在数据驱动型业务中,如营销策略、产品迭代、业务分析、用户画像等,都依赖于数据提供决策支持,希望通过数据来捕捉特定的用户行为,如按钮点击量、阅读时长等统计信息。因此,数据埋点可以简单理解为:针对特定业务场景进行数据采集和上报的技术方案。数据埋点非常看重两件事,一个是数据记录的准确性,另一个则是数据记录的完备性。先讲数据的准确性。数据埋点非常强调规范和流程,因为参数的规范与合法,将直接影响到数据分析的准确性,如果准确性得不到保障,那么所有基于原创 2021-04-05 17:40:00 · 425 阅读 · 0 评论 -
如何从0到1建设一个数据平台
### |0x00 战略篇为什么会写这篇文章?是因为做了一段时间的企业数字化工作,发觉不是所有的地方,都已经做好了一个数据平台,等你来大展身手。更多的时候,你是来到了一片荒漠之中,把过去那些已经做的比较成熟的事情,重新的再做一遍,就像游戏开荒那样。因此,如果快速度过0-1的过程,从1开始发挥自己的价值,就显得很有必要,这是一个战略问题。其实,数据在没有积累到一定程度时,是很难发挥出它的智能价值的,也就是数据平台的发展,绕不过“看数”的阶段。只要业务成熟到一定程度,数据才能发挥出它的增值潜力。就像石油原创 2021-03-22 21:54:09 · 283 阅读 · 0 评论 -
数据研发的岗位技能
脉脉有个讨论,结合看更有意思:【点击此处】|0x00 开局一张图|0x01 如何理解数据研发岗数据研发,又名“大数据开发”、“数据仓库”、“数据技术”等称呼,通常的岗位要求是熟悉数据仓库模型设计经验、熟练运用大数据计算平台、有良好的数据敏感度、具备数据统计的基础知识等要求。提炼一下,就是掌握全面的数据技术知识,具备与工程、数据、分析/算法、产品/运营,同时打交道的能力,是一个入门门槛低,但成长难度大的岗位。对标金融,就是从会计到CFO,从行业分析到基金经理的成长难度。作为从12年就开始搞数据开发原创 2021-03-10 19:13:59 · 567 阅读 · 0 评论 -
漫谈实时数仓架构
|0x00 从实时数仓的历史谈起实时数仓的历史,有三个显著的分水岭。第一个分水岭是从无到有,随着以Storm为代表的实时计算框架出现,大数据从此摆脱了MapReduce单一的计算方式,有了当天算当天数据的能力。第二个分水岭是是从有到全,以Lambad和Kappa为代表的架构,能够将实时与离线架构结合在一起,一套产品可以实现多种数据更新策略。第三个分水岭是从全到简,以Flink为代表的支持窗口计算的流式框架出现,使离线和实时的逻辑能够统一起来,一套代码实现两种更新策略,避免了因为开发方式不统一导致的数原创 2021-02-01 19:36:48 · 511 阅读 · 2 评论 -
简单写写安全多方计算
|0x00 什么是安全多方计算多方安全计算最近很火,不仅是因为欧盟出了一个数据隐私法规《通用数据保护条例》(General Data Protection Regulation,简称GDPR),也在于存量市场竞争下,大家都有了更多数据合作的场景。例如:两家公司都有一份用户数据,但不想让对方知道自己的用户是谁,但又想知道自己的用户跟对方的用户,有多少是重叠的,这时候我们通过怎样的算法,才能让自己用户信息不泄露的情况下,获得自己想要的结果?安全多方计算起源于著名的“百万富翁”问题:有两个富翁想比较一些谁更富原创 2021-01-25 18:40:27 · 1269 阅读 · 3 评论 -
数字化时代,聊聊“主数据”
|0x00 数字化是一种“阳谋”2016年的云栖大会,马云提到了未来的五个大趋势:“新零售、新制造、新金融、新技术与新能源”,排在第一个的,就是“新零售”。那么何谓“新零售”?马老师说:“线下与线上零售将深度结合,再加现代物流,服务商利用大数据、云计算等创新技术”;逍遥子说:“整个商品生产、流通、服务的过程因为互联网、大数据的广泛运用变得更加高效”。总之,这个“新”字,离不开数据,以及应用数据的能力。但电商已经是数字化程度很高的行业了,那么新一轮的数字化,就不是从单纯的电商场景展开,而是继续推动企业或原创 2021-01-19 19:10:30 · 457 阅读 · 1 评论 -
数据资产治理概要:用数据来治理数据
|0x00 为什么数据治理难做毛主席说:“研究任何过程,如果是存在着两个以上矛盾的复杂过程的话,就要用全力找出它的主要矛盾,捉住了这个主要矛盾,一切问题就迎刃而解了。”对于数据治理而言,矛盾就是:“有限的机器资源与存储计算的无限增长之间的矛盾”。因为存在主要矛盾,因而“数据治理”在被提出10多年后,依然是目前数据领域的热门问题。解决的方法也很简单,就是尽量限制存储计算的增长,不论是通过技术手段,比如数据压缩、列式存储,还是通过方法论,比如维度建模、存储健康分,都能够延缓数据增长的困境。但最大的问题,原创 2021-01-14 20:22:36 · 393 阅读 · 0 评论 -
为什么好的流程得不到贯彻?
|0x00 什么是好的流程俗话说:“无规矩不成方圆”,在公司里,规矩就是我们每天都在遵守的“流程”。流程是什么?通常情况下,流程是为了确保某件事情能够被有效的完成,由团队决定的,可以重复执行的一组动作的集合。软件开发流程,就是软件开发过程中应当遵守的流程,包括规则、规定或规范等。一个好的流程,首先的目标,是确保事情能够按时按量完成,其次能够让协作过程中的收益,大于所付出的成本。什么是收益?通常有以下几点:加速研发过程:好的办事流程会更加有效率,政府单位为什么被吐槽,不是初心不好,而是效率太慢;原创 2021-01-07 09:10:56 · 148 阅读 · 0 评论 -
浅谈模型重构
|0x00 从一次会议说起笔者最近参加了一个线下的交流会议,不仅邀请了一些领导参加,也有很多一线的研发工程师,大家针对某些具体的问题,展开相互的讨论。讨论的过程很有意思,首先请领导发言,领导就公司的整体情况进行了表述,同时对于接下来的管理重点做了一个总结,等领导发言之后,会场里的一线研发工程师们面面相觑,自然也就顺着领导的发言思路,对公司一些具体战略的执行,进行了分组讨论。讨论结束后,有个同学提出了问题,咱们这个会议的初衷是为了解决具体问题,但会议搞完了,好像我们并没有讨论任何具体问题。为什么把这件事情原创 2020-10-05 09:06:30 · 2412 阅读 · 0 评论 -
浅谈领域模型
|0x00 领域模型是什么领域模型是什么?一句话:“经济基础决定上层建筑”中的“经济基础”,是帮助理解复杂业务领域问题的基石。有人说:“领域模型是一个商业概念,同行业的企业,一定有内在的共性,是帮助系统分析人员认识现实业务的工具。”领域,即边界的意思,有了清晰的边界,协作才有了利益的基础;模型,即知识体系,深入理解了业务知识,开发才不会走过多的弯路。一般意义上的领域模型是面向软件工程领域的,而现实意义的领域模型则包含了商业模式等广义上的概念。很多人一上来理解领域驱动设计(DDD),基本都是一头雾水,因原创 2020-10-05 09:04:32 · 2634 阅读 · 0 评论 -
浅谈架构方法论
|0x00 架构思维相信很多人,谈起架构,第一印象,就是各种各样的架构图,有一个高高在上的人,坐在那里,阔谈自己的理念。诚然画图是架构师的一项日常工作,但通过一张图,来道出事物发展的本质,却是另外一种功夫。做了这么多年的程序员之后,如果只有打开了Idea才会思考架构,或者是敲起了Sql代码才会理解业务,细细想来,只能是自己的功夫不到,理解不透罢了。架构的第一印象,不应该是多流行的技术,或者是多么高性能的框架,而是它能不能满足业务的需求,既不能跑不动,也不能太超前。那么架构是什么?从理论上讲,它描述了系原创 2020-10-05 09:01:13 · 683 阅读 · 0 评论 -
突然火了的实时数仓
|0x00 数仓为什么要实时去年开始,实时数仓的概念突然火了。也许是传统的离线数仓搞了很多年,技术相对成熟了,因此大家都把注意力放到了挑战性更高的实时上来;也许是随着存量市场竞争的到来,对于速度的要求越来越快,T+1已经不能满足数据的获取要求了,实时的构建需求也就应运而生了。总之,时效性开始大于分析性。文本简单介绍实时数仓的一些基础理论,更系统性的理论,仍然行业需要更大范围的应用和总结。总之,这是一块有前景的新领域,值得探索。|0x01 实时数仓的技术要求高并发性未来的实时数据一定不是仅仅给几原创 2020-06-25 17:33:43 · 3566 阅读 · 0 评论 -
数据人如何做好能力积累
| 0x00 学习的力量从毕业开始,数据人就要奋斗在学习的第一线上。数据开发与Java不同,它要求一个更高的起点;数据开发与Java相同的是,成为专家都需要一个长期的学习过程。毕业伊始,数据人就要奋斗在读论文的道路上。大数据不得不讲神器的Google三大论文,你可以骂它看不懂,你可以骂自己英语不好,但是你确实要看的,不推荐你看中文版,会让你误解很多概念和词汇,还是要从英文的开始看起。MapReduce可谓是总结了大数据计算的核心:分而治之。如果觉得太难懂,吴军老师有一本《数学之美》,有一章也是说这个东原创 2020-05-28 17:01:17 · 635 阅读 · 0 评论 -
简单聊聊数据湖
数据湖是什么“数据湖”最近好像一下子火了,远比“数据仓库”要吃香,在做云计算的公司都在主推这一概念。关于这个概念的标准解释,不论是Wiki也好、AWS也罢,基本上都集中在几个共性上:存储能力:支持企业数据的海量存储需求;数据类型:支持结构化、半结构化及非结构化数据;数据管理:完善的数据信息管理能力,包括但不限定于权限、数据格式、血缘追踪等;个性化分析:不仅要支持离线批量处理,也要支持实时流式处理,以及交互式分析需求;生命周期管理:原始、中间、结果数据的生产与管理;可扩展性:当系统整体遇到瓶颈原创 2020-05-18 17:59:33 · 621 阅读 · 0 评论 -
漫谈数据治理之四:企业数据该怎么搞
企业数据的特点在绝大多数的互联网公司中,数据仓库都是面向用户的数据建设,如广告、电商、游戏等,相对而言都有比较稳定的业务形态和统计方式。但有一个方向是例外的,那就是企业数据。不论是阿里、腾讯,还是传统的大企业,任何一家企业做大了之后,内部的组织和管理方式都是非常复杂的,且变动频繁的,如果数据团队面向的是企业数据建设,数据治理的场景、方式都会有很大的部分,本篇文章重点分析一下企业数据的治理方式。从两个方面来谈一下企业数据的特点:业务方面和系统方面。首先说业务方面,有四个特点:不同主题的数据相对独立:原创 2020-05-16 19:24:26 · 1361 阅读 · 0 评论 -
漫谈数据治理之三:流程上的规范化
治理理论概述我们目前所积累的数据治理经验,大多数是在互联网场景下的,且与自己工作高度相关。如果想更进一步的搞好数据治理,就应该看一下业界相关的一些权威机构的理论。以国际数据管理协会,也就是DAMA,协会提供了一种DMBOK方式,覆盖了企业数据管理领域的十个方面,十分适合阿里腾讯这种大型企业。可以说,这是一个很不错的参考框架,用来对比我们目前的数据管理工作,寻找不足之处。下图为数据管理十方面理论...原创 2020-05-07 20:56:42 · 854 阅读 · 0 评论 -
漫谈数据治理之二:思想上的体系化
数据的滚雪球效应现代数仓体系中,数据数量的高速增长已经不是什么新鲜事了,在大数据的作用被业界所认知到后,几乎所有对于业务有价值的行为,都将以数据的形式被收集。虽然这些数据很有价值,但在体现数据的价值之前,数据存储的成本已经扛不住了。据可靠统计,大公司每年数据的存储量以60%的速度在增长,5年后业界的数据规模就将达到今天的10倍,数据的滚雪球效应正在体现。数据暴增带来的系统风险数据暴增不仅带来...原创 2020-04-29 09:09:48 · 622 阅读 · 0 评论 -
漫谈数据治理之一:计算与存储压力
背景概要做数据的同学都能够有体会,当我们做业务时间长了以后,数据表的数量就会变得庞大无比,很多过去的逻辑,如果负责的同学离职了,那么能再看懂它的人就很少了。久而久之,就造成了表一大堆,没人敢动的问题。等到计算或者存储遇到瓶颈了,回过头来再改,会让人痛不欲生。主要痛点只建表,不删表:绝大多数做数据工作的同学,都没有及时清理无用表的习惯。交接过程产生漏洞:由于业务的问题比较繁琐,理解起来有一...原创 2020-04-23 20:13:32 · 435 阅读 · 0 评论 -
数据人指南:实用项目管理技巧
对于业务开发的同学而言,需求多、排期难,是一件非常普遍的事情,而采用怎样的项目管理技巧,能够帮助我们节约开发时间、提前排除开发中的隐患问题,帮助是很多的。这里给大家分享几个小技巧,希望能够帮到你。 第一个小技巧是重新审视项目上线时间。很多时候,我们之所以难以协调项目排期,是因为项目的上线时间卡的很死,那么这个项目是否一定要在规定的时间上线,是否可以延迟,或者是否有部分功能可以...原创 2020-03-31 23:21:09 · 294 阅读 · 0 评论 -
ODPS系列(1):初识ODPS
注:MaxCompute,原名ODPS,出于使用习惯考虑,以下用ODPS代指MaxCompute,即阿里巴巴大数据计算服务。一、为什么选择ODPS?1.选择Apache Hadoop?以Hadoop为代表的开源组件,搭建及维护的成本较高,遇见各类配置、网络、参数问题较多,升级时存在不兼容风险,需要单独搭建额外组件(如HBase),Namenode无法得安全性保障,需要较长时间来熟...原创 2020-02-05 15:12:49 · 10225 阅读 · 1 评论