Want to Become a Data Engineer? Let’s learn!
文章目录
简介
在建立模型之前,在数据经过清洗用于探索分析之前,甚至在数据科学家工作开始之前,数据工程师就已经闪亮登场了。每一个数据驱动的业务都需要一个适用于数据科学管道的框架,否则就是失败的配置。
1. 什么是数据工程师
数据工程师负责构建和维护数据科学项目的数据架构,他们必须确保服务器和应用程序之间的数据流是连续的。改进数据基础应用程序,将新的数据管理技术和软件集成到现有系统中,构建数据收集管道及其他各种各样的事情,都属于数据工程师的职责。
数据工程中最受欢迎的技能之一是设计和构建数据仓库的能力。数据仓库是收集、存储和检索所有原始数据的地方,如果没有数据仓库,一个数据科学家做的所有任务就会变得要么太昂贵,要么太大,以至于无法拓展。
ETL(提取、转换和载入)是数据工程师构建数据管道所遵循的步骤,它实际上是一份关于如何处理、转换收集来的原始数据以备分析的蓝图。
数据工程师通常有着工程背景,与数据科学家不同的是,这个角色不需要太多的学术和科学知识。因此,对构建大规模结构和体系结构的开发人员或工程师非常适合这个角色。
2. 数据科学家和数据工程师之间的区别
了解这两种角色之间的区别非常重要。从广义上讲,数据科学家综合使用统计学、数学、机器学习和行业知识来构建模型。他/她必须使用组织支持的相同工具/语言和框架来编码和构建这些模型。而数据工程师必须构建并维护适用于数据收集、处理和部署数据密集型应用的数据结构和体系架构。构建数据收集和存储管道,将数据汇总给数据科学家,从而将模型投入生产-这些只是数据工程师必须执行的任务中的一部分。
要使任何大规模数据科学项目取得成功,数据科学家和数据工程师需要携手合作,否则事情很快就会出错。
3. 与数据工程相关的不同角色
数据架构师:数据架构师为数据管理系统收集、整合和维护所有的数据源奠定基础,这个角色需要了解SQL、XML、Hive、Pig、Spark等工具。
数据库管理员:顾名思义,担任此角色的人需要对数据库有着广泛的了解。职责包括确保数据库对所有需要的用户可用,适当地维护数据库,并且保证在添加新特性时没有任何中断。
数据工程师:精通以上众多技巧的人。正如我们所见,数据工程师需要掌握数据库工具、Python和Java语言、分布式系统(如Hadoop)等知识,这个角色负责多种组合任务。
4. 数据工程认证
5. 数据工程核心技能及其学习资源
a.数据工程简介
b.基本语言要求:Python
c.扎实的操作系统知识
d.丰富、深入的数据库知识-SQL和NoSQL
e.数据仓库-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
f.基本的机器学习知识
在Scratch平台上使用Python学习数据科学的完整教程
Raspberry Pi平台和Raspberry Pi的python编程
Apache Spark、RDD和Dataframes(使用PySpark)的综合指南
大数据基础知识-HDF、MapReduce和Spark RDD
大数据分析-Hive、Spark SQL、DataFrames 和GraphFrames
总结
成为一名数据工程师非一日之功,希望以上资源能够为学习者提供一定的帮助作用与借鉴价值,同时你还要有着将工具、技术与胜任力潜能融为一体的深入理解。身处 AI 与 大数据时代 ——“这是一个最好的时代,也是一个最坏的时代”! 数据工程师在业内需求巨大,对于任何愿意从事这一工作的人来说,这依旧是一个心照不宣的选择!
参考原文
Want to Become a Data Engineer? Here’s a Comprehensive List of Resources to get Started