数据科学的交叉:
1. 数据和统计学,
2. 计算机及技术,
3. 实质性专业(Substantive Expertise) 领域的知识
Python具有非常多的数据科学分析的包。
数据科学的工作流: (数据源, 爬取数据, 清洗数据, 数据可视化, 分析挖掘数据, 结果绘图)
数据挖掘和机器学习的工作流
inquire 从数据中获取什么信息
obtain?获取数据,爬虫/数据库/文件导入/public-API
scrub pandas, NumPy 数据的清洗分析
explore 展现出来数据可视化 matplotlib seaborn
Model 科学计算和机器学习的库
scikit-learn, SciPy, TensorFlow 库进行分析
iNterpret 结果: bokeh , d3.js
数据科学最常见的5个库:
## 机器学习最常用的五个库
Numpy, Scipy, Pandas, Matplotlib, Scikit-learn
Numpy
1. NumPy提供了一个N维数组类型ndarray,矩阵, 矢量数学运算。
2. 高效 Index 不需要循环
3. 非常高效快速媲美C的速度/Matlab
Scipy
Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。
Pandas:
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
Time-Series, DataFrame, Pannel
强大的数据索引和处理
Matplotlib
2D 绘图
matlab 绘图功能 散点,曲线,柱形图
mplot3d 制作 3d 图像
Scikit-learn
机器学习的模块
建立在 Scipy, 提供了常用的机器学习算法: 聚类, 回归
## 机器学习最常用的五个库Numpy, Scipy, Pandas, Matplotlib, Scikit-learn
Numpy1. NumPy提供了一个N维数组类型ndarray,矩阵, 矢量数学运算。2. 高效 Index 不需要循环3. 非常高效快速媲美C的速度/Matlab
ScipyScipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。
Pandas:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Time-Series, DataFrame, Pannel强大的数据索引和处理
Matplotlib 2D 绘图matlab 绘图功能 散点,曲线,柱形图mplot3d 制作 3d 图像
Scikit-learn机器学习的模块建立在 Scipy, 提供了常用的机器学习算法: 聚类, 回归