python高级数据分析_Python高级数据分析：机器学习、深度学习和NLP实例_PDF电子书...

最新推荐文章于 2023-07-02 13:54:37 发布

weixin_39620662

最新推荐文章于 2023-07-02 13:54:37 发布

阅读量331

点赞数

文章标签： python高级数据分析

因资源下载地址容易失效，请加微信号359049949直接领取，直接发最新下载地址。

前言

==============================================================

作为当今社会的热门职位，数据科学家通过对大量数据的合理使用，引起了一大批新的应用甚至是新的行业的产生。作为数据科学家使用的方法和工具，数据分析技术通过对收集来的大量数据进行详细研究和概括总结，让数据开口说话，从数据中提取有用信息并形成相应的结论，最终帮助人们将数据转化为可以付诸行动的见解。

鉴于已有许多数据分析方面的入门型书籍，本书侧重于从各个方面展示数据分析的高级内容。基于此，本书包含了数据分析领域较全面的方法和技术，包括最新的数据库技术、监督学习方法、无监督学习方法、深度学习和神经网络、时间序列以及大数据分析等内容。本书的另一特色在于给出了大量的实例，便于读者在实例基础上深入理解相关内容和方法，并在自己的项目中引用这些实例作为示例代码。

本书适合在数据分析领域已有一定基础，需要进一步提高的读者。

感谢华章公司的刘锋编辑不辞辛苦地和我沟通相关细节内容，同时感谢他在翻译本书过程中给予的诸多帮助。

限于本人水平，难免会对本书中部分内容的理解或中文语言表达存在不当之处，敬请读者批评指正，以便能够不断改进。

==============================================================

译者序

作者简介

技术审核员简介

致谢

第1章简介

1.1 为何选择Python

1.2 何时避免使用Python

1.3 Python中的面向对象编程

1.4 在Python中调用其他语言

1.5 将Python模型作为微服务

1.6 高性能API和并发编程

第2章 Python结构化数据提取、转换和加载

2.1 MySQL

2.1.1 如何安装MySQLdb

2.1.2 数据库连接

2.1.3 INSERT操作

2.1.4 READ操作

2.1.5 DELETE操作

2.1.6 UPDATE操作

2.1.7 COMMIT操作

2.1.8 ROLL-BACK操作

2.2 Elasticsearch

2.3 Neo4j Python驱动

2.4 neo4j-rest-client

2.5 内存数据库

2.6 Python版本MongoDB

2.6.1 将数据导入集合

2.6.2 使用pymongo创建连接

2.6.3 访问数据库对象

2.6.4 插入数据

2.6.5 更新数据

2.6.6 删除数据

2.7 Pandas

2.8 Python非结构化数据提取、转换和加载

2.8.1 电子邮件解析

2.8.2 主题爬取

第3章基于Python的监督学习

3.1 使用Python实现降维

3.1.1 相关性分析

3.1.2 主成分分析

3.1.3 互信息

3.2 使用Python进行分类

3.3 半监督学习

3.4 决策树

3.4.1 哪个属性优先

3.4.2 随机森林分类器

3.5 朴素贝叶斯分类器

3.6 支持向量机

3.7 最近邻分类器

3.8 情绪分析

3.9 图像识别

3.10 使用Python进行回归

3.10.1 最小二乘估计

3.10.2 逻辑回归

3.11 分类和回归

3.12 使模型高估或低估

3.13 处理分类型数据

第4章无监督学习—聚类

4.1 K均值聚类

4.2 选择K—肘部法则

4.3 距离或相似性度量

4.3.1 属性

4.3.2 一般及欧氏距离

4.3.3 平方欧氏距离

4.3.4 字符串之间的编辑距离

4.4 文档上下文的相似性

4.5 什么是层次聚类

4.5.1 自下而上的方法

4.5.2 聚类之间的距离

4.5.3 自上而下的方法

4.5.4 图论方法

4.6 如何判断聚类结果是否良好

第5章深度学习和神经网络

5.1 反向传播

5.1.1 反向传播方法

5.1.2 广义Delta规则

5.1.3 输出层权重更新

5.1.4 隐藏层权重更新

5.1.5 反向传播网络小结

5.2 反向传播算法

5.3 其他算法

5.4 TensorFlow

5.5 递归神经网络

第6章时间序列

6.1 变化的分类

6.2 包含趋势的序列分析

6.2.1 曲线拟合

6.2.2 从时间序列中去除趋势

6.3 包含周期性的序列数据分析

6.4 从时间序列中去除周期性

6.4.1 滤波

6.4.2 差分

6.5 转换

6.5.1 稳定方差

6.5.2 使周期效应累加

6.5.3 使数据呈正态分布

6.6 平稳时间序列

6.6.1 平稳过程

6.6.2 自相关和相关图

6.6.3 自协方差和自相关函数的估计

6.7 使用Python进行时间序列分析

6.7.1 有用的方法

6.7.2 自回归过程

6.7.3 估计AR过程的参数

6.8 混合ARMA模型

6.9 集成ARMA模型

6.10 傅里叶变换

6.11 一个特殊的场景

6.12 数据缺失

第7章大数据分析

7.1 Hadoop

7.1.1 MapReduce编程

7.1.2 partitioning函数

7.1.3 combiner函数

7.1.4 HDFS文件系统

7.1.5 MapReduce设计模式

7.2 Spark

7.3 云分析

7.4 物联网

编辑推荐

==============================================================

作者简介

==============================================================

精彩书摘

==============================================================

降维是数据分析的一个重要方面，数值数据和类别数据都可以进行降维操作。因子分析是常用的降维方法之一。例如，假设一个组织想要找出哪些因素对运营的影响最大或引起的变化最大，可以通过调查组织中不同员工的意见，根据这些调查数据进行因子分析，得出影响较大的因素。

在投资银行业中，用金融产品的加权平均值计算不同的指数。当指数走高时，可以预测到指数中具有正权重的金融产品也将走高，而具有负权重的金融产品将走低，交易员据此进行交易。通常，指数由至少十个大量金融产品组成。在高频交易中，很难在几分之一秒内发送这么多订单。使用主成分分析，交易员可以将指数缩小为较少的金融产品从而进行交易。奇异值分解是一种用于主成分分析和因子分析的常用算法。在本章中，将详细讨论它。在此之前，将介绍皮尔森相关系数，由于该系数的使用简单，使得它成为一种常用的降维方法。分类数据也需要降维。假设零售商想知道一个城市是否是销量的重要贡献者，可以通过互信息来衡量，在本章中也有介绍。

媒体评论

==============================================================

内容简介

==============================================================

作为当今社会的热门职位，数据科学家通过对大量数据的合理使用，引起了一大批新的应用甚至是新的行业的产生。作为数据科学家使用的方法和工具，数据分析技术通过对收集来的大量数据进行详细研究和概括总结，让数据开口说话，从数据中提取有用信息并形成相应的结论，最终帮助人们将数据转化为可以付诸行动的见解。鉴于已有许多数据分析方面的入门型书籍，本书侧重于从各个方面展示数据分析的高级内容。基于此，本书包含了数据分析领域较全面的方法和技术，包括最新的数据库技术、监督学习方法、无监督学习方法、深度学习和神经网络、时间序列以及大数据分析等内容。本书的另一特色在于给出了大量的实例，便于读者在实例基础上深入理解相关内容和方法，并在自己的项目中引用这些实例作为示例代码。本书适合在数据分析领域已有一定基础，需要进一步提高的读者。

因资源下载地址容易失效，请加微信号359049949直接领取，直接发最新下载地址。