移动互联网十年的光景太短了,后端技术才是真正可长期发展的方向

本文是关于大数据架构师Dico的访谈记录,他分享了从大数据工程师到架构师的心路历程,强调后端技术的长远发展。Dico在芒果TV担任大数据架构师,负责数据仓库、画像平台和推荐平台的建设。他建议程序员不仅要关注技术,还要理解业务价值。Dico提到了大数据技术如Hadoop、Hive、Spark和Flink的重要性,并对于新手转行大数据,他认为系统学习和理解大数据架构是关键,入门可能需要半年到一年的时间。
摘要由CSDN通过智能技术生成

重大消息!菜鸟窝大数据讲师团队又迎来一位重量级讲师,他就是Dico,从业8年以来,Dico一直深耕于大数据技术,从一名大数据工程师逐步成长为一名大数据架构师,谈起他的心路历程,他说了三个词**“缘分、试错、执着”。**正是他前瞻性的眼光,让他成为一名大数据领军人物。

现任职芒果TV大数据研发中心高级架构师,主导了芒果TV数据仓库建设、画像平台建设和推荐平台建设。

在采访中,Dico老师分享了自己的职业经历:“**为什么选择大数据作为职业方向?”“企业需要怎样的大数据人才?”**而对于程序员的自我提高,在访谈中Dico老师反复强调:程序员不应当只关注于技术领域,技术始终是为业务服务的,从公司层面来看,不能创造业务价值的技术没有意义。所以技术扎实,业务精练的程序员是我比较认可的。

采访实录

菜鸟窝:Dico老师您好,很高兴能获得您的采访,您可以简单介绍下您和您目前的工作吗?

**Dico老师:**您好,我曾经在北京、深圳学习和工作过,从15年开始,来到长沙,在芒果TV本部工作,曾在芒果TV的广告数据部、研发中心数据部任职,目前在大数据中心任大数据架构师的职位,负责芒果TV新数据中心的架构工作。

菜鸟窝:我们发现您在2011年已经在从事大数据行业,是什么时候您开始接触大数据,以及对它的展望?

**Dico老师:**最初是有老师做过简单的介绍,这样实习的时候,有选择的去了一家数据相关的公司,是我数据处理工作的开端。那个时候移动端开发也是非常火的方向,当时有很多专家预言,下一个十年是移动互联网的十年,后来我仔细想了想,十年光景太短了,我坚信后端技术才是一个可以长期从事发展的方向,刚好有几家数据公司招实习生,也是报着学习的心态,面试通过后就去数据公司实习了,算是和大数据缘分开始的地方。

从目前的趋势来看,人工智能将快速爆发,甚至有不少专家学者认为,十年后50%的人类工作将被AI取代,人工智能正如十年前的移动互联网一样,正处在上升的风口期,而人工智能需要大数据做支撑。目前,很多公司都使用云计算做基础设施支撑,以降低运维成本,比如在国内市场,口碑比较好的云服务供应商有AWS、阿里等;在云服务平台做大数据业务,有了大数据做业务支撑之后,就可以做一些推荐算法、智能平台,涉入AI领域。所以还是要打好基础,大数据技术还是要重视,有一些人会推荐绕过大数据直接学习AI算法,这也是一种方法,但是急功近利造成地基不稳,构建上层建筑容易出问题。

菜鸟窝:老师在您的工作中,主要涉及哪些大数据的技术,这些技术的作用是什么?

Dico老师:我这几年的工作,是伴随着芒果TV一起成长的。从最初的数据收集、备份、清洗、分析到展现,后来又经历了数据仓库重构、画像平台、推荐平台研发等等。期间做了很多调研、试验,很多方案改了又改,最终才成熟落地。

其中,Hadoop是不可忽视的基础,它在数据工作中已经成为默认的技术存在了,工作起来稳定的好像它又不存在一样;

其次Hive、Spark也被认为是稳定数据工作的利器,各有所长;

再有,时不时会有一些优秀的开源技术被大家广泛采纳而流行,比如Flink,它在流数据处理方面有很大贡献;

最后,不管什么技术,都需要整合起来,这需要至少一个与业务契合,运行稳定可靠的数据任务调度中心,这方面可以参考Oozie、Airflow、TBSchedule等。

菜鸟窝:如果是一名0基础转行大数据的新手,以您的专业角度,您觉得他最快需要多久入行?

**Dico老师:这个比较难讲,因为入行的标准很难界定。如果说在一些公司,一个职位可能只面对一个点,只需要处理一种事情,比如有些职位只要会写MapReduce应用程序就可以了,这样只要学会MapReduce,就可以以这个职位为基础再进阶,这样也算入门的话,就很容易了,基本上学习了Java基础之后,学会写MapReduce程序可能只需要一两周。

但是一般来讲,我们需要系统的了解大数据的生态圈,至少明白大数据架构是怎么运作的,比如Yarn的工作流程、Spark的内存计算模式等等,只有了解了这些,才能写出性能更高的清洗代码。再者,很多公司没有专门的运维,需要开发人员兼顾运维工作,了解数据架构的建设过程与配置情况也是很有必要的。如果以这种标准作为入门标准的话,如果有前辈带路,我想最快也得半年吧,而在没有职场前辈指导的情况下,就需要自己多钻研,入门时间会更长。

在社招方面,我倾向于后者作为入行标准,毕竟,即便是一些职位会MapReduce即可胜任,公司在招聘的时候,当然倾向于招聘的员工会的技能越多越好。此外,如果做为实习生,从0开始,以学习的心态进入一家企业,那前者作为入门标准也未尝不可。

菜鸟窝:可以介绍下您平时主要学习方式?比如网站、课程和书。

Dico老师:一般接触到新技术后,我会去搜索引擎上搜索一些别人的使用经验,这样可以了解到别人都是怎么使用的,大家遇到的问题是什么,怎么开始等等,搜索引擎的搜索结果多是一些博客、论坛或者是stackflow这样的问答网站。

如果需要深入的话,我会去购买一些书,比如很经典的**《Hadoop权威指南》**,这本书买了很多年,很经典;

最后,才是去官方网站上啃文档,官网上的资料一般都是最新的,最全的,常用的文档网址会收藏起来当作权威字典用。

如果平时遇到一些问题出现的少,网络上没有相似问题,而同事也没有解决办法,这个时候只能啃代码了,搜索网络上别人对这个框架的工作原理分析,再结合日志、源代码分析解决问题的大致方向,不断试错,学会在这个过程中积累经验是很重要的。

随着工作年限的增长,我越来越看重学习效率,能利用别人的经验,就决不重复造轮子**,比如我喜欢看别人现成的解决方法,优先于自己看源码研究问题原因。在企业环境里,追求效率似乎更明智。

是呀,“站在巨人的肩膀上才能看的更远”,通过前辈们的指导才能大大缩短学习的时间。目前,Dico老师的课程《数据仓库工程师必备技能—ETL从入门到实战》已经正式上线啦,限时全免费。

本次课程分为15个课时,课程详细讲解了pandas最重要的两种数据结构——Series和DataFrame,然后过渡到9种pandas的核心API,最后手把手带你模拟实战项目,用pandas清洗出数据指标,让你快速上手pandas成为规模数据处理达人。

课程目录

应用场景列举和设计的相关库

序列的几种构造方法

如何取出序列的数据

DataFrame讲解

创建对象查看数据

选择、缺失数据处理

数据操作、合并与分组、行列转换、时间序列、I&O操作

实战演练——广告和视频的结构

实战演练–广告数据的构成、指标的解释

实战演练–数据的收集

实战演练–广告指标业务分析 (构设一个nginx服务器)

课程里使用的广告数据模拟逻辑

投放数据与播放数据拆分

投放数据与播放数据清洗

实战演练–广告流失、升位统计

立即免费学习:https://www.cniao5.com/course/10197
勾搭助教weixin:BT474849,加入老师所在的数据交流群学习哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值