广工大数协阿里云天池金融风控训练营·Task 02EDA探索性数据分析打卡笔记

最新推荐文章于 2024-07-14 21:55:07 发布

hikarikei

最新推荐文章于 2024-07-14 21:55:07 发布

阅读量112

点赞数

文章标签：数据分析 python

本文链接：https://blog.csdn.net/hikarikei/article/details/116140707

版权

一、学习知识点概要

task2 主要是让我们了解数据总体，学会如何挖掘数据内部信息，掌握读取数据集的技巧与数据特征，学会查看数据类型并生成数据报告。

二、学习内容

读取文件→掌握数据基本特征及基本统计量→查看缺失值和唯一值→查看特征的类型

读取文件在上个任务中已进行详细学习，这里不再赘述
掌握数据基本特征及基本统计两量
- 我们要挖掘数据，就要掌握其基本信息。通过代码，查看数据的样本个数、数据类型、基本统计量（如平均值、方差、最大值、最小值等）
查看缺失值和唯一值
- 缺失值是什么
  - 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类，分组，删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。数据挖掘所面对的数据不是特地为某个挖掘目的收集的，所以可能与分析相关的属性并未收集（或某段时间以后才开始收集），这类属性的缺失不能用缺失值的处理方法进行处理，因为它们未提供任何不完全数据的信息，它和缺失某些属性的值有着本质的区别。
- 为什么要查找缺失值和唯一值
  - 这里涉及到数据清洗的问题。据清洗(Data cleaning)– 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。
    数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。
查看特征的类型
- 一般来说，特征=类别型特征+数值型特征=类别性特征＋连续型特征+离散型特征。
- 看数值型变量市正态分布，若不是就要将其正态化。
- 为什么要正态化
  - 一些情况下正态非正态可以让模型更快的收敛，过于偏态可能会影响模型预测结果。

三、学习问题与解答

敲代码时多次报错，发现很多次是某个符号漏打或错打，解决方法就是要自己更加细心了。技术上暂时未碰到问题，主要是操作上的问题。

四、学习思考与总结

task02的学习感觉深度和难度大大增加，在三天的学习中勉强能学完，但是要说完全把握那是还没有的事情，所以可能要吧更多的精力用来学习吧。

hikarikei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
广工大数协阿里云天池金融风控训练营·Task 02EDA探索性数据分析打卡笔记

一、学习知识点概要task2 主要是让我们了解数据总体，学会如何挖掘数据内部信息，掌握读取数据集的技巧与数据特征，学会查看数据类型并生成数据报告。二、学习内容读取文件→掌握数据基本特征及基本统计量→查看缺失值和唯一值→查看特征的类型读取文件在上个任务中已进行详细学习，这里不再赘述掌握数据基本特征及基本统计两量我们要挖掘数据，就要掌握其基本信息。通过代码，查看数据的样本个数、数据类型、基本统计量（如平均值、方差、最大值、最小值等）查看缺失值和唯一值缺失值是什么缺失值是
复制链接

扫一扫