广工大数协 阿里云天池 金融风控训练营·Task 02EDA探索性数据分析打卡笔记

一、学习知识点概要

task2 主要是让我们了解数据总体,学会如何挖掘数据内部信息,掌握读取数据集的技巧与数据特征,学会查看数据类型并生成数据报告。

二、学习内容

读取文件→掌握数据基本特征及基本统计量→查看缺失值和唯一值→查看特征的类型

  • 读取文件在上个任务中已进行详细学习,这里不再赘述
  • 掌握数据基本特征及基本统计两量
    • 我们要挖掘数据,就要掌握其基本信息。通过代码,查看数据的样本个数、数据类型、基本统计量(如平均值、方差、最大值、最小值等)
  • 查看缺失值和唯一值
    • 缺失值是什么
      • 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类 ,分组,删失或截断。 它指的是现有数据集中某个或某些属性的值是不完全的。数据挖掘所面对的数据不是特地为某个挖掘目的收集的,所以可能与分析相关的属性并未收集(或某段时间以后才开始收集),这类属性的缺失不能用缺失值的处理方法进行处理,因为它们未提供任何不完全数据的信息,它和缺失某些属性的值有着本质的区别。
    • 为什么要查找缺失值和唯一值
      • 这里涉及到数据清洗的问题。据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性

        数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

  • 查看特征的类型

    • 一般来说,特征=类别型特征+数值型特征=类别性特征+连续型特征+离散型特征。
    • 看数值型变量市正态分布,若不是就要将其正态化。
    • 为什么要正态化
      • 一些情况下正态非正态可以让模型更快的收敛,过于偏态可能会影响模型预测结果。 

三、学习问题与解答

敲代码时多次报错,发现很多次是某个符号漏打或错打,解决方法就是要自己更加细心了。技术上暂时未碰到问题,主要是操作上的问题。

四、学习思考与总结

task02的学习感觉深度和难度大大增加,在三天的学习中勉强能学完,但是要说完全把握那是还没有的事情,所以可能要吧更多的精力用来学习吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值