一、学习知识点概要
task2 主要是让我们了解数据总体,学会如何挖掘数据内部信息,掌握读取数据集的技巧与数据特征,学会查看数据类型并生成数据报告。
二、学习内容
读取文件→掌握数据基本特征及基本统计量→查看缺失值和唯一值→查看特征的类型
- 读取文件在上个任务中已进行详细学习,这里不再赘述
- 掌握数据基本特征及基本统计两量
- 我们要挖掘数据,就要掌握其基本信息。通过代码,查看数据的样本个数、数据类型、基本统计量(如平均值、方差、最大值、最小值等)
- 查看缺失值和唯一值
- 缺失值是什么
- 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类 ,分组,删失或截断。 它指的是现有数据集中某个或某些属性的值是不完全的。数据挖掘所面对的数据不是特地为某个挖掘目的收集的,所以可能与分析相关的属性并未收集(或某段时间以后才开始收集),这类属性的缺失不能用缺失值的处理方法进行处理,因为它们未提供任何不完全数据的信息,它和缺失某些属性的值有着本质的区别。
- 为什么要查找缺失值和唯一值
- 这里涉及到数据清洗的问题。据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
- 这里涉及到数据清洗的问题。据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
- 缺失值是什么
-
查看特征的类型
- 一般来说,特征=类别型特征+数值型特征=类别性特征+连续型特征+离散型特征。
- 看数值型变量市正态分布,若不是就要将其正态化。
- 为什么要正态化
- 一些情况下正态非正态可以让模型更快的收敛,过于偏态可能会影响模型预测结果。
三、学习问题与解答
敲代码时多次报错,发现很多次是某个符号漏打或错打,解决方法就是要自己更加细心了。技术上暂时未碰到问题,主要是操作上的问题。
四、学习思考与总结
task02的学习感觉深度和难度大大增加,在三天的学习中勉强能学完,但是要说完全把握那是还没有的事情,所以可能要吧更多的精力用来学习吧。