【学习笔记】Task2 数据分析

最新推荐文章于 2024-07-30 21:37:35 发布

SongzeLiCEMA

最新推荐文章于 2024-07-30 21:37:35 发布

阅读量80

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42953341/article/details/115771660

版权

Task2 数据分析

任务概览

本次任务专注于探索性数据分析，在数据读取以及作图方面学习了很多东西。

数据读取

在数据读取过程中我遇到不少问题，幸好学习群里均提供了解答。

本部分的函数定义中遇到了不少知识盲区，这里简单记录一下。

tqdm模块可以在Python执行循环命令时添加进度条信息，在直观展示运行过程的同时也不会影响原程序效率。详见[该文章][https://blog.csdn.net/qq_33472765/article/details/82940843]的介绍。
multiprocessing是Python的多进程管理包。关于进程和线程，我完全不了解，有时间的话需要参考[廖雪峰老师的课程][https://www.liaoxuefeng.com/wiki/1016959663602400/1017627212385376]学习一下。
pickle模块能够实现基本的数据序列化和反序列化。序列化能够将程序运行的对象信息永久存储到文件中去，而反序列化则可以将文件中的数据解析为一个Python对象。

此外，任务中的read_all_data是用户自己编写的模块。若要在jupyter notebook中调用它，需把对应的read_all_data.py文件放在notebook所在的文件夹中。

数据概览

可以借助dataframe对象的shape、columns、info()和describe等方法初步了解数据框的行列数、列名、各列数据类型和各列描述统计。

通过命令data_train.isnull().any().sum()可以计算data_train数据集中存在缺失值的列数。

数据特性和特征分布

本部分采取了一系列可视化方案来探究三种作业类型的特征分布。通过随机选取样本绘制轨迹可以发现，存在单点异常轨迹；通过绘制x和y序列也可以发现，有船只存在两坐标同时未变的情况，这也属于异常情形。

POI点是指“Point of Interest”，中文可翻译为“兴趣点”，它是地理信息系统中的概念。POI包括四方面信息：名称、类型、经纬度、区划。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。