数据工程师的任务是管理和组织数据,同时监视将影响业务目标的趋势或不一致。 这是一个技术性很强的职位,需要编程、数学和计算机科学等领域的经验和技能。 但是,数据工程师还需要软技能来向组织中的其他人传达数据趋势,并帮助企业利用其收集的数据。
数据工程师的任务和责任
数据工程师的一些最常见的任务和职责包括:
- 开发、构建、测试和维护数据库和数据结构。
- 使数据体系结构与业务需求保持一致。
- 数据采集。
- 发展由数据集创建和检索信息的过程。
- 使用编程语言和工具检查数据。
- 确定提高数据可靠性、效率和质量的方法。
- 对行业和业务问题进行研究。
- 部署复杂的分析程序、机器学习和统计方法。
- 为预测性和规范性建模准备数据。
- 使用数据发现可以自动化的任务。
常见数据工程工具
若要掌握数据工程,你将需要熟悉一系列工具,通过这些工具,你可以创建设计良好的数据库,这些数据库针对将运行的业务流程进行了优化。 你必须全面了解数据库管理系统的体系结构、系统运行的平台以及数据库中存储的数据的业务需求。
如果使用关系数据库管理系统,则需要精通 SQL。 你必须能够使用 SQL 创建数据库、表、索引、视图和数据库所需的其他对象。 许多数据库管理系统提供各种工具,让你可以创建和运行 SQL 脚本。 例如,通过 SQL Server Management Studio(在上一单元中介绍过),你可以直观地创建和查询表,但也可以手动创建自己的 SQL 脚本。
在某些情况下,你需要从命令行与数据库进行交互。 许多数据库管理系统提供支持这些操作的命令行接口。 例如,可以使用 sqlcmd 实用程序连接到 Microsoft SQL Server 和 Azure SQL 数据库,并运行临时查询和命令。
作为 SQL Server 专业人员,你的主要数据操作工具可能会是 Transact-SQL。 作为数据工程师,你可以使用其他技术(如 Azure Databricks 和 Azure HDInsight)来生成和测试预测模型。 如果在非关系字段中工作,可以使用 Azure Cosmos DB 作为主数据存储区。 若要操作和查询数据,可以使用 HiveQL、R 或 Python 等语言。