本文约6500字,建议阅读15分钟。
本文首先详细介绍了数据工程的职责、与数据科学家之间的差别以及其不同的工作角色,然后重点列出了很多与核心技能相关的的优秀学习资源,最后介绍行业内认可度较高的3种数据工程认证。
简介
在建立模型之前,在数据经过清洗用于探索分析之前,甚至在数据科学家工作开始之前,数据工程师就已经闪亮登场了。每一个数据驱动的业务都需要一个适用于数据科学管道的框架,否则就是失败的配置。
互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习 欢迎进阶中和进想深入大数据的小伙伴加入
大多数人怀揣着成为数据科学家的梦想进入数据科学世界,但却没有意识到数据工程师是做什么的,或者这个角色需要具备什么能力。数据工程师是数据科学项目的重要组成部分,以至于在当今数据丰富的环境里,产业对他们的需求正在指数式地上涨。
目前,没有统一的或者正式的学习路线可供数据工程师使用。大多数担任这个角色的人是通过在工作中学习的,而不是遵循一个详细的学习路线。我写这篇文章的目的是帮助那些想成为数据工程师,但却不知道从哪里开始以及从哪里找到学习资源的人。
本文中,我列出了所有有抱负的数据工程师需要知道的事情。首先,我们将了解什么是数据工程师,以及该角色和数据科学家的区别,然后将继续讨论你的技能宝箱中应该有的核心技能,以便完全胜任这个工作,最后我还提到了一些应该考虑的行业认可证书。
好了,让我们直接开始吧!
目录
1. 什么是数据工程师
2. 数据科学家和数据工程师的区别
3. 数据工程中的不同角色
4. 数据工程认证
5. 核心数据工程技能及其学习资源
-
数据工程简介
-
基本语言要求:Python
-
扎实的操作系统知识
-
丰富、深入的数据库知识-SQL和NoSQL
-
数据仓库-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
-
基本的机器学习知识
6. 总结
1. 什么是数据工程师
数据工程师负责构建和维护数据科学项目的数据架构,他们必须确保服务器和应用程序之间的数据流是连续的。改进数据基础应用程序,将新的数据管理技术和软件集成到现有系统中,构建数据收集管道及其他各种各样的事情,都属于数据工程师的职责。
数据工程中最受欢迎的技能之一是设计和构建数据仓库的能力。数据仓库是收集、存储和检索所有原始数据的地方,如果没有数据仓库,一个数据科学家做的所有任务就会变得要么太昂贵,要么太大,以至于无法拓展。
ETL(提取、转换和载入)是数据工程师构建数据管道所遵循的步骤,它实际上是一份关于如何处理、转换收集来的原始数据以备分析的蓝图。
数据工程师通常有着工程背景,与数据科学家不同的是,这个角色不需要太多的学术和科学知识。因此,对构建大规模结构和体系结构的开发人员或工程师非常适合这个角色。
2. 数据科学家和数据工程师之间的区别
了解这两种角色之间的区别非常重要。从广义上讲,数据科学家综合使用统计学、数学、机器学习和行业知识来构建模型。他/她必须使用组织支持的相同工具/语言和框架来编码和构建这些模型。而数据工程师必须构建并维护适用于数据收集、处理和部署数据密集型应用的数据结构和体系架构。构建数据收集和存储管道,将数据汇总给数据科学家,从而将模型投入生产-这些只是数据工程师必须执行的任务中的一部分。
要使任何大规模数据科学项目取得成功,数据科学家和数据工程师需要携手合作,否则事情很快就会出错。
要了解有关这两个角色之间差异的更多信息,请访问我们的详细信息图。
详细信息图:
https://www.analyticsvidhya.com/blog/2015/10/job-comparison-data-scientist-data-engineer-statistician/
3. 与数据工程相关的不同角色
-
数据架构师:数据架构师为数据管理系统收集、整合和维护所有的数据源奠定基础,这个角色需要了解SQL、XML、Hive、Pig、Spark等工具。
-
数据库管理员:顾名思义,担任此角色的人需要对数据库有着广泛的了解。职责包括确保数据库对所有需要的用户可用,适当地维护数据库,并且保证在添加新特性时没有任何中断。
-
数据工程师:精通以上众多技巧的人。正如我们所见,数据工程师需要掌握数据库工具、Python和Java语言、分布式系统(如Hadoop)等知识,这个角色负责多种组合任务。
4. 数据工程认证
谷歌认证专家
这是目前最重要的数据工程认证之一。要获得此证书,你需要成功地通过一个具有挑战性的、2个小时多的考试,题型是多项选择题。你可以在这个网页上找到考试内容的大体范围,此外,这个网页提供给了一些实际操作谷歌云技术的实践指南。请一定要看一下!
谷歌认证专家:
https://cloud.google.com/certification/data-engineer
IBM认证数据工程师
要获得证书,你需要通过这个考试。考试包含54个问题,你必须正确回答44个。我建议在考试前,先了解IBM希望你了解的内容。“考试”链接中还提供了学习资料的进一步链接,你可以参考这些资料进行准备。
IBM认证数据工程师:
https://www.ibm.com/certify/cert?id=50001501
考试:
https://www.ibm.com/certify/exam?id=C2090-101
Cloudera的CCP数据工程师
这是另一个全球