数据科学知识体系

数据科学概论

随着互联网的飞速发展,大数据(Big Data)的概念和技术成为当下流行的领域。 数据科学(Data Science)这一体系也随着大数据的崛起成为讨论热点。在各大招聘网站上,“数据科学家”也渐渐成为一个热门的工作职位。大专院校也纷纷开设大数据相关专业培养数据科学人才。哈佛商业评论说,数据科学家是二十一世纪最性感的职业。
数据科学是一个混合了数学、计算机科学以及相关行业知识的交叉学科,主要包括统计学、操作系统、程序设计、数据库、机器学习、数据可视化等相关领域的知识。随着数据量的爆发,大数据可以看做数据科学的一个分支。

操作系统

Linux

Linux是一个多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和[网络协议。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。
Linux最擅长的就是服务器系统。大数据平台无论是Hadoop还是Spark,最好的搭配就是Linux。
Linux强大而丰富的文本工具如grep、sed、awk等可以在不动用编程工具的前提下完成基本的数据处理流程。
基于Linux内核的发行版本已经有很多了,比较流行的诸如Ubuntu、Redhat、CentOS、Debian等等,目前使用最广泛的是Ubuntu,反正我用的ubuntu。

架构(apache三个顶级项目:hadoop、Spark、Storm)

Hadoop

Hadoop是一款支持数据分布式存储和数据分布式计算的软件平台,能够在廉价硬件上构建大型集群。
简单来说,Hadoop架构包括两部分,一是HDFS分布式文件系统,二是MapReduce编程模型。前者负责将数据分布式并容错地存储在集群的各个节点,后者负责对数据进行分布式的分发、计算和归纳。
Hadoop上的数据和应用程序被分区成许多小部分,而每个部分都能在集群中的任意节点上运行。
Hadoop一经推出,立刻风靡大数据领域并成为事实上的行业标准,围绕Hadoop的技术生态圈迅速建立起来,主要包括下面几项技术:

  • HBase:Hadoop上的分布式非结构化数据库(NoSQL)。
  • Hive:构建于Hadoop之上的数据仓库,通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。
  • Mahout:机器学习算法软件包。
  • Sqoop:结构化数据如关系数据库与H
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值