建立自己的数据科学体系-数据科学扫盲

最新推荐文章于 2024-06-30 13:55:39 发布

Officetouch数据科学

最新推荐文章于 2024-06-30 13:55:39 发布

阅读量347

点赞数 1

分类专栏： ofter数据科学文章标签：数据挖掘数据分析机器学习

本文链接：https://blog.csdn.net/weixin_42341655/article/details/124772775

版权

ofter数据科学专栏收录该内容

36 篇文章 36 订阅

订阅专栏

一个人可以无法成为科学家、政治家、企业家......然而，成为某个领域的专家是完全可以实现的。Ofter坚持在数据科学领域钻研，如果你也喜欢研究数据，那就让我们从今天开始踏上数据科学之旅。

一、数据科学的常识

相信大家一定听过很多概念：大数据、数据挖掘、数据分析、机器学习等等，其实数据科学中的很多元素由诸如机器学习（machine learning）、数据挖掘（data mining）等相关学科中的元素进化而来。很多场景中，数据科学、机器学习、数据分析和数据挖掘这些概念都是可以互换的。程序 = 数据结构 + 算法 + 算力，而数据科学与这3个元素更加息息相关，没有算力(computation power)的数据分析能力也必然是有限的。

1.1 数据科学的主线

在数据科学的长河中，一条主线是数据收集（data collection），而另一条主线是数据分析（data analysis）。第一条关于数据发展的主线，Ofter已经通过一个视频讲得比较清晰了，从数据的定义->数据的存储->大数据时代，感兴趣的可以看看：https://www.bilibili.com/video/BV1hb4y1n7zE

我们重点讲一下数据分析这条线，刚开始数据分析主要还是局限于统计分析，因此大家可以在很多教材的第一部分看到概率与统计学基础，是不是很烦人。其实，我们可以到机器学习那部分的时候，涉及到的时候再返回去学习下，毕竟像贝叶斯、高斯的最小二乘法主要都是为回归、人工神经网络模型的发展奠定的基础。后来可想而知，数据分析就不仅限于概率统计分析了，分类、回归、人工神经网络、决策树、聚类、异常检测，对，就是机器学习的主要模型。因此，机器学习领域逐渐变成现代数据科学的核心。

1.2 数据科学家必备技能

大数据时代，各种大型数据库以及大量与之相关的领域知识也随之而来，因此数据科学的所需技能也是水涨船高，目前必备的技能如下图：

当然，数据科学家并不需要创造机器学习算法，只需要知道现有的机器学习算法可用于做什么、明白它们生成的结果意味着什么，以及适应的特定数据类型。数据科学家需要专注于数据科学的应用，并测试各种机器学习算法，以了解哪种算法最适合他关注的场景和数据。

无论你采用什么样的技能，成为一名成功的数据科学家的一个关键因素是能够围绕数据“讲故事”。这个故事可能揭示了数据分析的深刻见解，或者项目期间创建的模型如何适配组织的流程，以及它们对组织功能可能产生的影响。

二、数据科学的应用

数据科学的应用领域绝对比我们想象中更广泛，人们对数据科学的能力和优点的认识在不断提高，而这些能力和优点是由那些成功案例凸显出来的。在国内很少能看到这样的案例，因为数据科学并不会给每个项目带来积极的结果，因此国内在这方面的投入会比较少。除了使用数据科学进行一些商业的销售和营销（像今日头条的推荐系统），有些国外政府也会使用数据科学改善医疗、刑事判案和城市规划等等。

其实，像人工神经网络模型，我们是从生物体的神经网络中得到了灵感，目前得益于计算机计算能力的不断提升，人工神经网络的表现也是越来越出色。在某些方面，人工神经网络对物体的辨识度已经超过了人类。在癌症攻坚、医疗诊断、精准治疗领域，采用数据科学能更快速、更精准地提供医疗建议和方案。

数据科学还能用于城市组织方式的改革：它被用来跟踪、分析和控制环境、能源和运输系统，并为长期的城市规划提供数据信息。

三、数据科学的认知误区

3.1 误区一：让数据自动去寻找问题的答案

数据科学的各个处理阶段都需要数据科学家的介入。问题分解、解决方案设计、数据准备、选择最合适的机器学习算法、精准解释分析结果、根据分析结果采取必要的干预措施，这些环节都需要数据科学家的参与。如今许多组织面临的最大的挑战是找到优秀的数据科学家。数据科学方面的人才非常珍贵，人才是当前数据科学应用的主要瓶颈之一。

3.2 误区二：每个项目都需要大数据和深度学习

一般来说，拥有更多的数据是很有帮助的，但是拥有正确的数据更重要。数据科学项目经常在多个组织中进行，在数据量和计算能力方面，一般组织的资源明显少于谷歌、百度或微软等巨头。好多国内企业的数据量根本连百万级都达不到，他们却在考虑TB级数据下的数据架构。

3.3 误区三：数据科学很容易实施

目前，市场上有很多相关的软件可以使用，这就导致很多人觉得数据科学借用这些软件就很容易实现。正确地进行数据科学实践既需要适当的领域知识，也需要关于数据属性的专门知识，以及各种机器学习算法底层假设的支持。数据科学需要投资开发数据的硬件设施，还需要雇佣具有数据科学专业背景的人员。

3.4 误区四：利用数据科学一定能成功

数据科学并不能给每个项目都带来积极的结果，有时数据中没有金矿只有砂砾。数据科学往往是一个加分项，适当的数据和专业的团队可以为组织提供成功所需的竞争优势，但无法保证一定能成功。

四、数据科学常用数据集及框架

4.1 数据集

https://www.kdnuggets.com/datasets/index.html

http://archive.ics.uci.edu/ml/datasets.php

https://vision.cornell.edu/se3/

https://www.kaggle.com/datasets

https://www.datacastle.cn/dataset_list.html

4.2 机器学习框架

常用框架	链接
tensorflow	https://www.tensorflow.org
pytorch	http://pytorch.org
cntk	https://github.com/Microsoft/CNTK
Caffe2	https://caffe2.ai/
Keras	https://keras.io
scikit learn	https://scikit-learn.org/stable

Officetouch数据科学

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
建立自己的数据科学体系-数据科学扫盲

一个人可以无法成为科学家、政治家、企业家......然而，成为某个领域的专家是完全可以实现的。Ofter坚持在数据科学领域钻研，如果你也喜欢研究数据，那就让我们从今天开始踏上数据科学之旅。
复制链接

扫一扫