建立自己的数据科学体系-数据科学扫盲

一个人可以无法成为科学家、政治家、企业家......然而,成为某个领域的专家是完全可以实现的。Ofter坚持在数据科学领域钻研,如果你也喜欢研究数据,那就让我们从今天开始踏上数据科学之旅。

一、数据科学的常识

相信大家一定听过很多概念:大数据、数据挖掘、数据分析、机器学习等等,其实数据科学中的很多元素由诸如机器学习(machine learning)、数据挖掘(data mining)等相关学科中的元素进化而来。很多场景中,数据科学、机器学习、数据分析和数据挖掘这些概念都是可以互换的。程序 = 数据结构 + 算法 + 算力,而数据科学与这3个元素更加息息相关,没有算力(computation power)的数据分析能力也必然是有限的。

1.1 数据科学的主线

在数据科学的长河中,一条主线是数据收集(data collection),而另一条主线是数据分析(data analysis)。第一条关于数据发展的主线,Ofter已经通过一个视频讲得比较清晰了,从数据的定义->数据的存储->大数据时代,感兴趣的可以看看:https://www.bilibili.com/video/BV1hb4y1n7zE

我们重点讲一下数据分析这条线,刚开始数据分析主要还是局限于统计分析,因此大家可以在很多教材的第一部分看到概率与统计学基础,是不是很烦人。其实,我们可以到机器学习那部分的时候,涉及到的时候再返回去学习下,毕竟像贝叶斯、高斯的最小二乘法主要都是为回归、人工神经网络模型的发展奠定的基础。后来可想而知,数据分析就不仅限于概率统计分析了,分类、回归、人工神经网络、决策树、聚类、异常检测,对,就是机器学习的主要模型。因此,机器学习领域逐渐变成现代数据科学的核心。

1.2 数据科学家必备技能

大数据时代,各种大型数据库以及大量与之相关的领域知识也随之而来,因此数据科学的所需技能也是水涨船高,目前必备的技能如下图:

当然,数据科学家并不需要创造机器学习算法,只需要知道现有的机器学习算法可用于做什么、明白它们生成的结果意味着什么,以及适应的特定数据类型。数据科学家需要专注于数据科学的应用,并测试各种机器学习算法,以了解哪种算法最适合他关注的场景和数据。

无论你采用什么样的技能,成为一名成功的数据科学家的一个关键因素是能够围绕数据“讲故事”。这个故事可能揭示了数据分析的深刻见解,或者项目期间创建的模型如何适配组织的流程,以及它们对组织功能可能产生的影响。

二、数据科学的应用

数据科学的应用领域绝对比我们想象中更广泛,人们对数据科学的能力和优点的认识在不断提高,而这些能力和优点是由那些成功案例凸显出来的。在国内很少能看到这样的案例,因为数据科学并不会给每个项目带来积极的结果,因此国内在这方面的投入会比较少。除了使用数据科学进行一些商业的销售和营销(像今日头条的推荐系统),有些国外政府也会使用数据科学改善医疗、刑事判案和城市规划等等。

其实,像人工神经网络模型,我们是从生物体的神经网络中得到了灵感,目前得益于计算机计算能力的不断提升,人工神经网络的表现也是越来越出色。在某些方面,人工神经网络对物体的辨识度已经超过了人类。在癌症攻坚、医疗诊断、精准治疗领域,采用数据科学能更快速、更精准地提供医疗建议和方案。

数据科学还能用于城市组织方式的改革:它被用来跟踪、分析和控制环境、能源和运输系统,并为长期的城市规划提供数据信息。

三、数据科学的认知误区

3.1 误区一:让数据自动去寻找问题的答案

数据科学的各个处理阶段都需要数据科学家的介入。问题分解、解决方案设计、数据准备、选择最合适的机器学习算法、精准解释分析结果、根据分析结果采取必要的干预措施,这些环节都需要数据科学家的参与。如今许多组织面临的最大的挑战是找到优秀的数据科学家。数据科学方面的人才非常珍贵,人才是当前数据科学应用的主要瓶颈之一。

3.2 误区二:每个项目都需要大数据和深度学习

一般来说,拥有更多的数据是很有帮助的,但是拥有正确的数据更重要。数据科学项目经常在多个组织中进行,在数据量和计算能力方面,一般组织的资源明显少于谷歌、百度或微软等巨头。好多国内企业的数据量根本连百万级都达不到,他们却在考虑TB级数据下的数据架构。

3.3 误区三:数据科学很容易实施

目前,市场上有很多相关的软件可以使用,这就导致很多人觉得数据科学借用这些软件就很容易实现。正确地进行数据科学实践既需要适当的领域知识,也需要关于数据属性的专门知识,以及各种机器学习算法底层假设的支持。数据科学需要投资开发数据的硬件设施,还需要雇佣具有数据科学专业背景的人员。

3.4 误区四:利用数据科学一定能成功

数据科学并不能给每个项目都带来积极的结果,有时数据中没有金矿只有砂砾。数据科学往往是一个加分项,适当的数据和专业的团队可以为组织提供成功所需的竞争优势,但无法保证一定能成功。

四、数据科学常用数据集及框架

4.1 数据集

https://www.kdnuggets.com/datasets/index.html

http://archive.ics.uci.edu/ml/datasets.php

https://vision.cornell.edu/se3/

https://www.kaggle.com/datasets

https://www.datacastle.cn/dataset_list.html

4.2 机器学习框架

常用框架链接
tensorflowhttps://www.tensorflow.org
pytorchhttp://pytorch.org
cntkhttps://github.com/Microsoft/CNTK
Caffe2https://caffe2.ai/
Kerashttps://keras.io
scikit learnhttps://scikit-learn.org/stable
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Officetouch数据科学

将知识收为己用

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值