追本溯源:数据科学真的有那么重要吗?

552 篇文章 2 订阅

全文共2378字,预计学习时长6分钟

图源:forbes

数据科学存在已久,但它真正流行起来是在过去十年间,尤其是大流行期间,它得到了广泛认可。过去几个月里,关于数据科学的话题越来越多,人们不禁疑惑,它是如何变得如此重要的?

为了得到答案,我们首先要了解数据科学的概念和简史。

 

数据科学是什么?

数据科学的官方定义是“使用科学方法、过程、算法和系统从数据中提取知识和见解的领域”。这个定义看起来很宽泛,因为数据科学确实是一个包含很多内容的领域。通常提到数据科学,人们就会想到“大数据”,甚至有些人认为两者是等同的。然而,“大数据”只是数据科学的一方面,该领域还包括很多其他部分。

确切地说,数据科学是一个跨学科领域——结合了计算机科学、数学、统计学和许多其他领域的内容。它包含机器学习(使用统计数据在大量数据中找到模式的算法)、数据分析(包括检查数据、清理数据/使其有效并对其进行转换,以确保以有效的方式对其进行建模,从而帮助解决业务问题)和数据工程(侧重于获取数据、准备数据和处理数据)。

下图显示了一个数据科学家需要承担的多项工作。

图源:Simplilearn

数据采集:采集将要处理的数据。数据在当今世界随处可见,所以,本阶段的关键不仅仅在于“采集”,而是理解业务需求和优先级,采集正确类型和数量的数据。

数据准备:也就是对于数据的预处理。本阶段需要准备数据——提取相关数据并将其转换为有效形式,用于接下来的分析和建模。

数据分析:本阶段位于建模之前,探索性数据分析(EDA)使用多种工具帮助提炼可用的数据。这一阶段所做的改进有助于建模。

数据建模:本阶段将不同的机器学习技术应用于数据,以帮助人们理解数据中的模式和关系。

可视化/数据可视化:本阶段,前几阶段的数据分析结果以公众能够理解的形式呈现。这些结果包含很多有价值的信息,因此被用于做出重要决策。

部署和维护:部署和持续维护模型,确保其能够适应任何环境变化。

上述过程不是线性的,而是一个循环。因此,在做完数据可视化和模型部署后,该过程反复进行,以确保模型不断得到优化。

 

数据科学简史

尽管数据科学在2001年才被正式列为一门学科,但是在此之前,它已经不知不觉地存在了30年。人们认为John W. Tukey在1962年写的《数据分析的未来》是最早提到数据科学的出版物之一。

接下来的几十年里,也有人提到数据科学,但是没有被正式称为“数据科学”——其与统计分析关系更大,而不是我们现在所说的数据科学。

2001年,人们意识到了数据科学的重要性,首次将其列为一门学科。同年,William S. Cleveland出版《数据科学:扩大统计领域技术面的行动计划》,这是关于数据科学领域的首份出版物,成为该领域进步的起点。

大概十年后,由于对分析大量数据的需求日益增加,数据科学领域开始流行起来。采集数据的大型科技公司(比如谷歌)的增加提高了海量数据的可用性。

同年,Kenneth Cukier在《经济学人》上发表了一篇专题报告,介绍如何结合软件开发人员、统计学家和艺术家的技能,从数据中提取有用的见解。几个月后,Mike Loukides在其出版物《什么是数据科学?》中介绍了如何建模分析数据、做出预测,以及如何逐步优化这些模型以做出更好的预测。

自此,该领域的研究一直呈指数级增加,数据科学的应用也随之增加。值得注意的是,数据科学目前在某种程度上与大多数现代行业相关联。

 

数据科学在各种行业中的应用

数据科学几乎与当今所有的现代行业相联系。涉及的领域包括汽车、航空、商业、金融、医疗保健等等。

自动驾驶汽车

图源:unsplash

与“数据科学”话题相同,自动驾驶汽车的概念也在被越来越多的人讨论。本文不会解释自动驾驶汽车的完整逻辑,这里强调的是,为了得到精确的决策和预测,需要分析大量数据,其中数据科学起到了很大作用。

航线规划

有段时间,由于飞机燃料的上涨和其他费用的增加,航空业开始亏损。这时,数据科学被引入用于航线规划。使用过去20年采集的海量数据,帮助航空公司对乘客行为做出更精确的预测,而后规划更盈利的航线。

定向广告

以前,广告面向广泛的受众,而其中一大部分用户可能对广告代言的产品不感兴趣。数据科学的应用改变了这一局面,因为通过数据科学可以推断出对产品感兴趣的特定用户,从而做出明智的决定,将广告推送给这些用户。

快递路线

应用数据科学,可以根据距离(距离最短)、时间(用时最短)和其他各种因素计算最佳路线,确保快递以更高效的方式寄送。

图源:unsplash

数据科学的应用不仅仅局限于本文提到的这些情况。上面这些例子是从不同行业中精挑细选出来的,目的是向你展示数据科学不仅在许多行业中得到应用,还为其中许多行业的重大进步做出了贡献。

数据科学话题越来越热的另一大原因,是它对于度过新冠肺炎大流行至关重要。其在大流行期间提供的帮助包括但不限于:

· 了解新冠肺炎传染的风险,以做出更好的应对措施。

· 预测病毒在不同城市和国家的传播,以采取必要行动。

· 尝试通过理解解决社区传播问题。

· 使用追踪系统发出警报。

“数据科学真如大家所说的那样重要吗?”,这个问题要考虑的要素很多。但可以肯定的是,这门学科在过去十年里迅速发展,也会在未来几年里持续发展。

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值