本书提供了使用 Python 进行高级数据分析的方法,涵盖了机器学习、深度学习和自然语言处理的应用实例。书中详细讲解了如何在不同的数据库环境中进行数据提取、转换和加载(ETL),并探讨了监督学习、无监督学习、深度学习、时间序列分析以及大规模数据分析的相关内容。
目录
-
简介
- 为什么选择 Python?
- 何时避免使用 Python
- Python 中的面向对象编程
- 调用其他语言代码
- 将 Python 模型暴露为微服务
- 高性能 API 和并发编程
-
使用 Python 进行 ETL(结构化数据)
- MySQL
- Elasticsearch
- Neo4j Python 驱动
- 内存数据库
- MongoDB(Python 版)
- Pandas 框架
-
使用 Python 的监督学习
- 降维
- 相关分析
- 主成分分析
- 互信息
- 分类
- 半监督学习
- 决策树
- 随机森林分类器
- 朴素贝叶斯分类器
- 支持向量机
- 最近邻分类器
- 情感分析
- 图像识别
- 回归
- 最小二乘估计
- 逻辑回归
- 分类和回归
- 处理类别数据
-
无监督学习:聚类
- K-means 聚类
- 肘部法则选择 K
- 距离或相似度度量
- 层次聚类
- 图论方法
- 聚类结果的评价
-
深度学习和神经网络
- 反向传播
- TensorFlow
- 循环神经网络
-
时间序列分析
- 时间序列中的趋势分析
- 消除趋势和季节性
- 平稳时间序列
- 自相关和协方差函数
- 时间序列分析方法
-
大规模数据分析
- Hadoop
- MapReduce 编程
- Spark
- 云端分析
- 物联网分析
-
附录
- 索引
- 作者简介
- 技术审查者简介
- 致谢
总结
本书旨在通过实例详细介绍如何利用 Python 进行数据分析和处理,包括结构化和非结构化数据的处理、监督和无监督学习算法的实现、深度学习模型的构建与训练以及时间序列数据的分析方法。此外,本书还探讨了如何在大数据环境下进行高效的数据分析,并介绍了在云计算和物联网环境下的应用。