get数据技能

turingbooks

于 2016-08-22 09:23:35 发布

阅读量3.4k

点赞数

分类专栏：图灵书讯文章标签：数据

本文链接：https://blog.csdn.net/turingbooks/article/details/52273941

版权

图灵书讯专栏收录该内容

165 篇文章 9 订阅

订阅专栏

《哈佛商业评论》把数据科学家誉为“21世纪最性感的职业”。虽说如此称呼有些夸张，但这个名称对数据科学的推崇却一点也没错，也预示了数据科学行业的蓬勃发展和无限前途。

今天小编就盘点了一下有关数据的图书，有一本免费码农杂志，三本R，三本数据科学，还有数据采集、数据清洗、数据挖掘、python数据分析、spark数据分析……，最后还有一本非技术数据分析的书。

get数据技能，从看码农杂志开始，走起~

免费码农杂志第24期——《数据技能》

这里写图片描述

图灵第24期《码农》选取了数据采集、数据清洗、数据分析和数据可视化方向的代表性文章，帮助你掌握从事数据科学工作所面临的问题及必备技能。他们还请来了负责微博数据库的技术经理肖鹏，分享他结缘MySQL并成为数据库专家的经历，揭秘新浪MySQL集群结构经历的3次重大变化，以及他对MySQL初学者的诚恳建议。

要想认真理解数据，学习编程至关重要。《R语言入门与实践》能充分调动你学习编程的积极性。

这里写图片描述
Hands-On Programming with R: Write Your Own Functions and Simulations

将R编程的方方面面巧妙地融合在三个精心挑选的示例中，让你轻松入门R语言

书中内容围绕着三个实际的编程挑战展开。如果能够顺利地掌握应对这三个挑战的技术，你将掌握关于 R 编程的基本知识，甚至还能学习一些中级技能，比如向量化编程、作用域和 S3 方法等。

目录及试读

注重实用性，一本全面而细致的R指南——《R语言实战（第2版）》

这里写图片描述

R in Action, Second Edition: Data analysis and graphics with R

上版豆瓣评分8.8分

从实际数据分析出发，全面掌握R编程

新增时间序列、聚类分析、分类，ggplot2，高级编程，创建包，创建动态报告（R Markdown, LaTeX）等近200页内容

本书的目的是让读者熟悉R平台，重点关注那些能马上用于操作、可视化和理解数据的方法。全书共22章，分为5部分：“入门”“基础方法”“中级方法”“高级方法”和“技能拓展”。在7个附录中还有更多的相关内容。

目录及试读

从R包的使用者晋升为R包的开发者，从《R包开发》开始

这里写图片描述

R Packages: Organize, Test, Document, and Share Your Code

RStudio首席科学家、R社区最有影响力的开发者Hadley Wickham十几年经验总结
统计之都创始人谢益辉、统计之都理事会主席冯凌秉作序推荐
美亚4.6星评，R开发进阶必备
一本使用Ｒ语言构建高质量软件的实用指南

主要内容包括：R包基础知识介绍，包的基本结构和可能形式，R代码，包的元数据，对象文档，长格式文档，数据，命名空间，编译过的代码，Git和GitHub，发布包，等等。

目录及试读

本书还没上市，预计8月底9月初上市。

从零开始着手数据科学工作，自己亲手构建工具和实现算法——《数据科学入门》

这里写图片描述

Data Science from Scratch: First Principles with Python

介绍数据科学基本知识的重量级读本，Google数据科学家Joel Grus出品

本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境，从零开始讲解数据科学工作、具体内容包括：Python速成，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k近邻法，朴素贝叶斯算法，等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，详细展示了什么是数据科学。

目录及试读

大数据时代的实战宝典——《数据科学实战》

这里写图片描述

Doing Data Science

豆瓣评分8.7分

脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义

谷歌、微软、eBay等公司一线数据科学家真知灼见，揭秘数据科学相关的最新算法、方法与模型

本书旨在让读者能够举一反三地解决重要问题，内容包括：数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外，本书还将带领读者展望数据科学未来的发展。

目录及试读

高效数据分析必备——《命令行中的数据科学》

这里写图片描述

Data Science at the Command Line

本书集实用性和先进性于一身，为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具，以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OSX，还是Linux，都可以安装包含80多个命令行工具的“数据科学工具箱”，迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言，都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。

目录及试读

网络数据采集技术入门书——《Python网络数据采集》

这里写图片描述

Web Scraping with Python: Collecting Data from the Modern Web

“用python3讲一个完整的数据爬取和清洗的过程”

不断提供开源代码示例来展示网络数据采集常用手段，剖析网络表单安全措施，完成大数据采集任务

本书共两部分，第一部分讲网络数据采集的基本原理，并重点介绍全书都要用到的几个 Python 库。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。也提供了许多常用的参考资料来补充更多的信息。

目录及试读

数据清洗入门与实践——《干净的数据》

这里写图片描述

Clean Data

真实示例讲解，真实项目实践
教你掌握高效数据清洗方法，为数据挖掘提供便利，让用户更好地体验大数据价值

本书从文件格式、数据类型、字符编码等基本概念讲起，通过真实的示例，探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目，让读者将所有数据清洗技术付诸实践，完成整个数据科学过程。

目录及试读

讲解互联网数据挖掘基本原理和方法——《社会媒体挖掘》

这里写图片描述

Social Media Mining: An Introduction

集成了近年来社会媒体、社会网络分析以及数据挖掘的前沿成果，旨在提供一种简单的参考或一个起点，帮助研究者快速、全面地了解社会媒体挖掘的基础知识。

本书整合了社会媒体、社会网络分析以及数据挖掘的相关知识，为学生、从业者、研究人员和项目经理理解社会媒体挖掘的基础知识和潜能，提供了一个方便的平台。本书介绍了社会媒体数据独有的问题，并阐述了网络分析以及数据挖掘中的基本概念、新出现的问题和有效的算法。

目录及试读

数据挖掘入门——《Python数据挖掘入门与实践》

这里写图片描述

Learning Data Mining with Python

使用python语言，由浅入深，以真实数据作为研究对象，真刀实枪地向读者介绍Python数据挖掘的实现方法。

本书介绍了数据挖掘的基础知识、基本工具和实践方法，并附有大量代码示例。采用理论与实践相结合的方式，呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果，如何使用亲和性分析方法推荐电影，如何使用朴素贝叶斯算法进行社会媒体挖掘，等等。也涉及神经网络、深度学习、大数据处理等内容。

目录及试读

了解数据分析全貌 ——《Python数据分析实战》

这里写图片描述

Python Data Analytics: Data Analysis and Science using PANDAs, matplotlib and the Python Programming Language

三个真实Python数据分析案例，将理论付诸实践
了解Python在信息处理、管理和检索方面的强大功能
学会如何利用Python及其衍生工具处理、分析数据

本书示例颇丰，在学习过程中，若能打开IPython Notebook，一点点跟着作者比划，想必新人也能出师，而有一定水平的开发者则可将其作为案头常备的参考书，以便节省不少查阅文档的时间。

目录及试读

本书还没上市，估计也在九月初左右上市，试读请点击题目上的书名。

一本为Spark初学者准备的书——《Spark快速大数据分析》

这里写图片描述

Learning Spark: Lightning-Fast Big Data Analytics

国内第一本Spark图书，Spark开发者出品
让你快速掌握用 Spark 收集、计算、简化和保存海量数据的方法
学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题

“这本书不是简单地教开发者如何使用 Spark，而是更深入介绍了 Spark 的内部构成，并通过各种实例展示了如何优化大数据应用。我向大家推荐这本书，或更具体点，推荐这本书里提倡的优化方法和思路，相信它们能帮助你创建出更好的大数据应用。”

目录及试读

Spark实用手册——《Spark高级数据分析》

这里写图片描述

Advanced Analytics with Spark

Cloudera公司数据科学家团队携手打造
内容强调实例，涵盖大规模数据分析中最常用的算法、数据集和设计模式

“与许多书籍只着重描述最终方案不同，本书作者在介绍案例时把解决问题的整个过程也展现了出来。在介绍一个主题时，并不是一开始就给出最终方案，而是先给出一个最初并不完善的方案，然后指出方案的不足，引导读者思考并逐步改进，最终得出一个相对完善的方案。这体现了工程问题的解决思路，也体现了大数据分析是一个迭代的过程，这样的论述方式更能激发读者的思考，这一点实在难能可贵。”