机器学习和数据科学从业者必读的10本免费英文书_深度学习的统计学书籍英文-CSDN博客

本文编译自https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html。

夏天本该是放松的季节，但Matthew Mayo给我们推荐了10本免费的机器学习和数据科学书籍，以打发无聊的长夏。我们先来看下这10本必读免费书的封面：

1、Python数据科学手册

作者：Jake VanderPlas

链接地址：https://github.com/jakevdp/PythonDataScienceHandbook

简介：

这本书介绍了Python数据处理所必需的核心软件包，如IPython、NumPy、Pandas、Matplotlib、Sckit-learn及祥光的软件包。本书假定您熟悉Python语言。如果你需要快速了解Python语言，请参阅本书免费的一个相关项目，《Python的旋风之旅》，研究人员和数据科学家可通过该项目快速上手Python。该项目的链接地址为：https://github.com/jakevdp/WhirlwindTourOfPython。

2、神经网络与深度学习

作者：Michael Nielsen

链接地址：http://neuralnetworksanddeeplearning.com/

简介：这是一本关于神经网络和深度学习的免费在线书籍。神经网络和深度学习目前为图像识别、语音识别和自然语言处理中的许多问题提供了最好的解决方案。这本书阐明了神经网络和深度学习背后的诸多核心概念。

3、贝叶斯思维：统计建模的Python学习法

作者：Allen B. Downey

链接地址：http://greenteapress.com/wp/think-bayes/

简介：这本书通过Python代码对贝叶斯统计进行了介绍，而不是通过纯粹的数学和统计学来学习贝叶斯统计。这本书以及其它编程思想系列的其他书籍，都要求你会编程。

大多数关于贝叶斯统计的书都使用数学符号，用以表达微积分之类的数学概念。而这本书使用Python代码代替数学，而离散逼近来代替连续的数学函数。例如，数学书中的一个积分在本书中将以一个累加来表示，大多数概率分布的运算在本书中都是一些简单的循环。

4、机器学习与大数据

作者：Kareem Alkaseer

链接地址：http://www.kareemalkaseer.com/books/ml

简介：

这本书还没有写完。如果时间许可，我将会增补更多细节。这本书的目的是让软件工程师在机器学习理论和实现之间找到一个平衡，以便在不依赖于外部库的情况下舒适地实现机器学习模型。一般来说，模型或技术背后的概念是非常简单或直观的。一旦涉及到细节、算法或者机器学习的名字术语，机器学习就不会显得那么简单和直观。此外，大多数现有的库都是用来解决具体问题的，它们被视为黑箱，因为这些库对使用者隐藏了底层的概念。这本书的目的是使这些基本概念更加明晰。

5、稀疏统计学习及其应用：套索模型及其泛化

作者：Trevor Hastie、RobertTibshirani、Martin Wainwright

链接：https://web.stanford.edu/~hastie/StatLearnSparsity/

简介：在过去的十年中，计算和信息技术发生了巨大的变化。在医学、生物学、金融和市场营销等领域，都产生了大量的数据。这本书在一个共同的概念框架中论述了在这些领域的重要统计思想。

稀疏统计模型只具有少数非零参数或权重，经典地体现了化繁为简的理念，因而广泛应用于诸多领域。本书就稀疏性统计学习做出总结，以lasso方法为中心，层层推进，逐渐囊括其他方法，深入探讨诸多稀疏性问题的求解和应用，不仅包括了大量例子和图表，还附有文献注释和课后练习，是深入学习统计学知识的极佳参考（引自http://www.ituring.com.cn/book/1723）。

6、数据科学的统计推断

作者：Brian Caffo

链接：https://leanpub.com/LittleInferenceBook

简介：这本书是数据科学专业的一本教材，在Coursera（https://www.coursera.org/course/statinference）统计推断课程中，这是一本配套教材。如果没有上这门课，也没有关系，因为这本书大部分是独立成章的；在YouTube上，您可以找到这本书的系列视频，也就是Coursera统计推断这门课的课程。

本书的目的是对统计推断的一个重要领域进行简单介绍。读者对象是数学和计算机专业的学生，他们希望在数据科学或统计学中运用这些技巧。另外，这本书在Github上也可以找到免费的版本，在LeunPub和零售店里也可以找到免费的、更方便的格式（如epub和mobi）的版本。

7、凸优化

作者：Stephen Boyd and Lieven Vandenberghe

链接：https://leanpub.com/LittleInferenceBook

简介：

这本书是关于凸优化的，这是一类特殊的数学优化问题，其中包括最小二乘和线性规划等问题。众所周知，最小二乘和线性规划问题有一个相当完整的理论，应用也非常广泛，并且可以非常高效地通过数值方式来求解。本书的基本观点是，对于大类凸优化问题，也可以通过这些方式来证明和求解。

8、用Python进行自然语言处理

作者：Steven Bird, Ewan Klein, and EdwardLoper

链接：https://www.nltk.org/book/

简介：

这是一本关于自然语言处理的书。 “自然语言”是指用于人类日常交流的语言，如英语、印地语或葡萄牙语等语言。与诸如编程语言和数学符号这样的人造语言相比，自然语言在代代相传的过程中不断发展，并且很难用明确的规则来确定。用计算机来操纵自然语言之类的问题，我们统称为自然语言处理（或简称为NLP）。本书基于Python编程语言，自然语言工具包为NLTK的Python开源库。

9、Python编程快速上手-让繁琐工作自动化

作者：Al Sweigart

链接：https://automatetheboringstuff.com/

简介：如果您曾花费数小时重命名文件或更新数百个电子表格单元格，您会知道这些繁琐的任务是多么的乏味。但是，如果您可以让电脑为您自动完成这些工作呢？

在使用Python自动帮我们完成这些繁琐的工作时，您将学会如何使用Python在几分钟内编写程序，来完成您需要花几小时才能手工做完的工作。而且，您无需编程经验。一旦掌握了编程的基础知识，就可以创建Python程序，轻松执行有用和令人印象深刻的自动化技术。

10、社交媒体挖掘概论

作者：Reza Zafarani, Mohammad Ali Abbasi andHuan Liu

链接：http://dmml.asu.edu/smm/

简介：社交媒体在过去十年的发展已经彻底改变了个人互动和行业开展业务的方式。个人通过社交媒体互动，共享和消费内容以前所未有的速度产生大量的数据。理解和处理这种新型数据，找到其中隐藏的模式，这些都给跨学科研究、新算法和挖掘工具的开发带来了挑战和机遇。社交媒体挖掘整合了社交媒体，社交网络分析和数据挖掘，为学生、从业人员、研究人员和项目经理提供了一个方便而统一的平台，让他们了解社交媒体挖掘的基本概念和潜力。