怎样进行大数据的入门级学习?

大数据在刚出来的时候,人们表现的非常乐观,以至于对它持有非常高的期望,和普遍的追捧。

不过只要有数据在,大数据就不会过时。随着上游的数据规模持续增长,大数据在未来一定会扮演重要角色。因此,市场需求将会更加突出,未来的发展趋势也一定是稳步向前的。

想要学习大数据,总得先了解有哪些必备的技能。废话不多说,先来上图:

接下来围绕着所需技能推荐20本相关的书籍:

1、数据科学与大数据分析

数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。

2、数据可视化(第2版)

本书从研究者的角度,介绍数据可视化的定义、方法、效用和工具,既可作为初学者的领路手册,也可用于可视化研究和可视化工具使用的参考指南。

基础篇,阐述数据可视化的基础理论和概念,从人的感知和认知出发,介绍数据模型和可视化基础;

时空数据篇,介绍带有空间坐标或时间信息的数据的可视化方法,此类数据通过设备在真实物理空间中采集得到或由科学计算模拟产生;

非时空数据篇,描述非结构化和非几何的抽象数据的可视化,这些数据既存在于真实物理空间,又是社会空间和网络信息空间的基本表达形式;

用户篇,介绍面向各类数据的可视化在实际应用中共同需要的方法、技术和工具,例如交互和可视化评测方法,以及在具体领域的可视化和应用系统。

3、Python数据可视化之matplotlib精进

使用大量的matplotlib 实用案例讲解Python 数据可视化在各个应用方向上的实现方法。通过学习这些实用案例,读者可以更好地掌握Python 数据可视化的高级技能。

本书主要由图形、元素、交互、探索和拓展5 部分组成,每部分的实用案例都有利于拓展matplotlib 的应用视野,而且案例中的示例代码只涉及Python 的基础知识。

这样,在Python 数据可视化的实践中,有利于读者将时间和精力放在系统掌握matplotlib 知识和技能上面,全面提高对matplotlib 的理解程度及应用水平。

4、机器学习

作为计算机科学与人工智能领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。 为了使尽可能多的读者通过本书对机器学习有所了解,作者试图尽可能少地使用数学知识。然而,少量的概率、统计、代数、优化、逻辑知识似乎不可避免。因此, 本书更适合大学三年级以上的理工科本科生和研究生,以及具有类似背景的对机器学习感兴趣的人士。

5、机器学习实战

通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。

6、算法之美

作者指出,计算机算法也可以用来解答人类面临的这些问题。

这本书告诉我们如何更有效地利用直觉、什么时候应该把选择权交给命运、无所适从的时候应该如何做出选择,以及如何有效地与他人保持联系。从找配偶到找停车位,从组织管理个人邮箱的收件箱到理解人类记忆的作用原理,这本书把计算机科学的智慧转化为人类生活的策略,引导我们做出明智的选择。

7、数据结构与算法分析 C语言描述

本书是《Data Structures and Algorithm Analysis in C》一书第2版的简体中译本。在本书中,作者更加精炼并强化了他对算法和数据结构方面创新的处理方法。通过C程序的实现,着重阐述了抽象数据类型的概念,并对算法的效率、性能和运行时间进行了分析。

戳《Big Data - Spark项目实战》免费报名试听,从零开始,讲解最流行的的大数据framework,实战三个大数据项目。

求职必备《九章算法班》仍在火热报名中,全程直播授课,FLAG资深工程师和金牌助教在线答疑。实战拔高算法水平,30天冲击FLAG面试!

现在报名占坑,开课前自动提醒~

获取更多信息请关注:九章算法官网

8、数据结构与算法分析:Java语言描述

本书是国外数据结构与算法分析方面的经典教材,使用卓越的Java编程语言作为实现工具讨论了数据结构(组织大量数据的方法)和算法分析(对算法运行时间的估计)。

本书把算法分析与有效率的Java程序的开发有机地结合起来,深入分析每种算法,内容全面、缜密严格,并细致讲解精心构造程序的方法。

9、数据结构与算法:Python语言实现

采用Python语言讨论数据结构和算法,详细讲解其设计、分析与实现过程,是一本内容全面且特色鲜明的教材。

书中将面向对象视角贯穿始终,充分利用Python语言优美而简洁的特点,强调代码的健壮性和可重用性,关注各种抽象数据类型以及不同算法实现策略的权衡。

10、云计算:概念、技术与架构

涉及云计算领域的各个方面,涵盖了很多基本概念,共包含五个部分,第一部分到第四部分主要涵盖了云计算基础、云计算机制、云计算架构以及云计算使用等内容,以云计算起源为出发点,介绍了云计算领域的基本概念。第五部分即附录给出了案例研究结论,介绍了工业标准组织、云计算机制与特性之间的对应关系、数据中心设施、云计算新兴技术,并给出了云提供合同和云商业案例模板。

11、云计算架构技术与实践

本书以云计算架构技术为核心,从讨论云计算发展为起点,围绕云计算架构涉及的核心技术与商业实践展开。论及的核心技术包括计算、存储、网络、数据、管理、接入、安全等方面,涵盖了云计算的*新趋势、原理、特性与实践。

12、大规模分布式存储系统

理论方面,不仅讲解了大规模分布式存储系统的核心技术和基本原理,而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析;

实战方面,首先通过对阿里巴巴的分布式数据库OceanBase的实现细节的深入剖析完整地展示了大规模分布式存储系统的架构与设计过程,然后讲解了大规模分布式存储技术在云计算和大数据领域的实践与应用。

13、分布式缓存 原理、架构及Go语言实现

随着互联网的飞速发展,各行各业对互联网服务的要求也越来越高,互联网系统很多常见的存储类场景都面临着容量和稳定性风险。此时,本地缓存已无法满足需要,分布式缓存由于其高性能、高可用性等优点迅速被广大互联网公司接受并使用。

本书共分3个部分,每个部分都有3章。第1部分为基本功能的实现,主要介绍基于HTTP的in memory缓存服务、HTTP/REST协议、TCP等。

第2部分介绍性能相关的内容,我们将集中全力讲解从各方面提升缓存服务性能的方法,主要包括pipeline的原理、RocksDB批量写入等。

最后一个部分则和分布式缓存服务集群有关,主要介绍分布式缓存集群、节点的再平衡功能等。

14、Spark快速大数据分析

是一本为Spark初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。

介绍了开源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。

15、Hadoop权威指南:大数据的存储与分析

全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。全书5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce 的数据处理API)。

16、Flink 原理、实战与性能优化

这是一部以实战为导向,能指导读者零基础掌握Flink并快速完成进阶的著作,从功能、原理、实战和调优等4个维度循序渐进地讲解了如何利用Flink进行分布式流式应用开发。

17、SQL基础教程

介绍了关系数据库以及用来操作关系数据库的SQL语言的使用方法。书中通过丰富的图示、大量示例程序和详实的操作步骤说明,让读者循序渐进地掌握SQL的基础知识和使用技巧,切实提高编程能力。每章结尾设置有练习题,帮助读者检验对各章内容的理解程度。另外,本书还将重要知识点总结为“法则”,方便读者随时查阅。

18、SQL进阶教程

本书是《SQL基础教程》作者MICK为志在向中级进阶的数据库工程师编写的一本SQL技能提升指南。

全书可分为两部分,第一部分介绍了SQL语言不同寻常的使用技巧,带领读者从SQL常见技术,比如CASE表达式、自连接、HAVING子句、外连接、关联子查询、EXISTS……去探索新发现。这部分不仅穿插讲解了这些技巧背后的逻辑和相关知识,而且辅以丰富的示例程序,旨在帮助读者提升编程水平;

第二部分着重介绍关系数据库的发展史,把实践与理论结合起来,旨在帮助读者加深对关系数据库和SQL语言的理解。

19、Kafka Streams实战

Kafka Streams是Kafka提供的一个用于构建流式处理程序的Java库,它与Storm、Spark等流式处理框架不同,是一个仅依赖于Kafka的Java库,而不是一个流式处理框架。除Kafka之外,Kafka Streams不需要额外的流式处理集群,提供了轻量级、易用的流式处理API。

在这本易于理解的书中,读者将通过实际的例子来收集、转换和聚合数据,使用多个处理器,处理实时事件,可以使用KSQL 深入研究流式SQL。本书还讲解了Kafka Streams应用程序的测试和运维方面的内容(如监控和调试)。

20、数据挖掘:你必须知道的32个经典案例

本书是为广大数据分析师量身定制的入门读物。

本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。

今天就先介绍到这里,以后再给大家慢慢分享~

展开阅读全文

没有更多推荐了,返回首页

应支付0元
点击重新获取
扫码支付

支付成功即可阅读