数据科学：从大数据到机器学习-CSDN博客

本文链接：https://blog.csdn.net/duke_lucas122/article/details/105723562

数据科学是结合数学、计算机科学与行业知识的交叉学科，随着大数据崛起，成为热门领域。它涵盖统计学、操作系统（如Linux）、编程语言（如Python、R、Java）、数据库（关系型与非关系型）、大数据平台（Hadoop、Spark）以及机器学习算法。Python因丰富的数据科学库成为首选编程语言，而SQL和R在数据分析中也扮演重要角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据科学概论

随着互联网的飞速发展，大数据（Big Data）的概念和技术成为当下流行的领域。数据科学（Data Science）这一体系也随着大数据的崛起成为讨论热点。在各大招聘网站上，“数据科学家”也渐渐成为一个热门的工作职位。大专院校也纷纷开设大数据相关专业培养数据科学人才。哈佛商业评论说，数据科学家是二十一世纪最性感的职业。
数据科学是一个混合了数学、计算机科学以及相关行业知识的交叉学科，主要包括统计学、操作系统、程序设计、数据库、机器学习、数据可视化等相关领域的知识。随着数据量的爆发，大数据可以看做数据科学的一个分支。

操作系统

Linux

Linux是一个多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和[网络协议。Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。
Linux最擅长的就是服务器系统。大数据平台无论是Hadoop还是Spark，最好的搭配就是Linux。
Linux强大而丰富的文本工具如grep、sed、awk等可以在不动用编程工具的前提下完成基本的数据处理流程。
基于Linux内核的发行版本已经有很多了，比较流行的诸如Ubuntu、Redhat、CentOS、Debian等等，目前使用最广泛的是Ubuntu，反正我用的ubuntu。

架构(apache三个顶级项目：hadoop、Spark、Storm)

Hadoop

Hadoop是一款支持数据分布式存储和数据分布式计算的软件平台，能够在廉价硬件上构建大型集群。
简单来说，Hadoop架构包括两部分，一是HDFS分布式文件系统，二是MapReduce编程模型。前者负责将数据分布式并容错地存储在集群的各个节点，后者负责对数据进行分布式的分发、计算和归纳。
Hadoop上的数据和应用程序被分区成许多小部分，而每个部分都能在集群中的任意节点上运行。
Hadoop一经推出，立刻风靡大数据领域并成为事实上的行业标准，围绕Hadoop的技术生态圈迅速建立起来，主要包括下面几项技术：