数据工程的崛起:从数据科学的“后遗症”到未来的关键
本文探讨了数据工程领域近年来的快速发展,并分析了其背后的原因。文章指出,数据工程在数据科学领域中扮演着至关重要的上游角色,为数据分析、数据科学和机器学习工程师提供数据基础设施。
数据科学的兴起最初源于科技巨头利用其带来的巨大经济效益,但许多非科技公司在跟风引入数据科学时却忽视了数据基础设施的重要性。这导致许多公司雇佣的数据科学家实际从事着数据工程工作,最终造成资金浪费和市场对数据科学家角色的误解。
文章强调,科技巨头之所以能够成功应用数据科学,是因为他们早已建立了完善的数据工程基础设施,并从一开始就将数据和可扩展性纳入公司发展规划。而大多数非科技公司则缺乏这种前瞻性,导致他们在数据科学应用中遇到瓶颈。
作者认为,数据工程领域的快速发展正是由于这些非科技公司意识到当初的错误,开始重视数据基础设施建设,从而推动了数据工程人才需求的增长。文章最后指出,数据工程将成为未来数据领域的关键,并将继续保持快速发展趋势。
数据工程现在发展速度超过数据科学。 我开始思考,这对整个数据领域意味着什么? 这是一件好事吗? 为什么现在会发生这种情况? 在很大程度上,数据工程是数据科学的上游。 他们构建数据仓库和数据管道的工作,可以让数据分析师、数据科学家和机器学习工程师构建模型,并从数据中获得洞察。 为什么这个应该先于数据科学的领域,在数据科学流行之后才流行起来? 无论好坏,世界并不总是线性发展的。 数据科学变得性感是因为许多顶级科技公司通过它赚取了巨额财富。 非科技公司看到了数据科学和机器学习带来的价值,并很快效仿。 不幸的是,对于许多追随潮流的公司来说,他们没有数据基础设施来充分利用数据科学家。 我相信数据工程流行的大幅上升,来自许多技术含量较低的公司意识到自己犯了一个大错误。 他们在聘请所有这些数据科学家之前,需要雇佣人来修复他们的数据。