学习目标:
- EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
- 了解特征之间的相关性、分布,以及特征与预测值之间的关系。
- 为进行特征工程提供理论依据
- 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值)
- 学习了解变量之间的相互关系、变量与预测值之间的存在关系
学习内容:
- 数据总体了解
读取数据集并了解数据集的大小,原始特征维度;
通过info了解数据类型;
粗略查看数据集中各特征的基本统计量
- 缺失值和唯一值
查看数据缺失值情况
查看唯一值情况
- 数据特性和特征分布
三类渔船轨迹的可视化
坐标序列可视化
三类渔船速度和方向序列可视化
三类渔船速度和方向的数据分布
- 总结