Task 04 - 浅谈数据分析的准备过程

欢迎来到缪斯的博客

在这里插入图片描述

数据集探索

数据探索通常包括数据集的收集下载及数据集描述

数据集下载

一般我们可以到一些开源的网站去寻找我们需要的数据集,不同的算法类型或者业务类型会有不同的数据集网站。
比如汉字识别的会有汉字的数据集,人脸图像的会有人脸的数据集网站···

数据集描述

一般的方法为通过dataframe的方式
使用 df.head()及df.columns及df.info() 查看源数据的数据概览
使用 .isnull()及.nonull() 配合除法探索数据空值的比例
使用sort_values及group_by查看关注的属性的信息

数据清洗

对于数据的空缺值和噪声值(奇异值)需要进行数据清洗
对于没有数学解释意义的变量我们需要对其进行转化处理
转化成有数学表达意义的数据,即根据数据集各个属性的特点进行特征构建
这样不仅有利于我们分析这些特征与我们的预测变量直接的关系
还有助于助于提升数据的精度,使原始数据有更好的解释性
进而使我们的预测模型有更好的效果

特征工程

数据工程通常包括数据特征构建,特征提取特征选择


特征构建是指从原始数据中人工的找出一些具有物理意义的特征。需要观察原始数据,思考问题的潜在形式和数据结构。
除此之外,属性分割和结合是特征构建时常使用的方法。结构性的表格数据,可以尝试组合二个、三个不同的属性构造新的特征,如果存在时间相关属性,可以划出不同的时间窗口,得到同一属性在不同时间下的特征值,也可以把一个属性分解或切分,例如将数据中的日期字段按照星期几和节假日去构建特征。


特征提取与特征选择的目的均为从原始特征中找出最有效的特征。
两者都能帮助减少特征的维度并且降低数据冗余,特征提取有时还能帮助我们发现潜在的更加有价值的特征属性。
当然,它们之间也有一定的区别,特征提取强调的是通过特征转换的方式得到一组具有明显物理或统计意义的特征。
特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。

衡量变量之间的线性关系时,我们通常使用**皮尔森相关系数(Pearson Correlation)**进行辅助判断帮助我们进行特征选择。

数据可视化

数据可视化是一种将技术与艺术完美结合,通过借助图形化的手段有效地以易于向读者传达信息的表现形式(如折线图,热力图等)的方法。
数据可视化可以增加数据的灵性,帮助我们从信息中提取更加有效的信息、从中发现数据间的关系。数据可视化的意义在于帮助我们更好的分析数据,信息的质量很大程度上取决于它的表达方式,对数字罗列所组成的数据中所包含的意义进行分析,使分析结果可视化。
这样看来,数据可视化的本质就是视觉对话。它能更好的与我们数据处理分析人员进行沟通。

Task 03 - 从函数到高级魔法方法 - 类与对象

Task 01 - 部分学习内容解析与补充 Python基础入门:从变量到异常处理(第三天)

Task 01 - 部分学习内容解析与补充 Python基础入门:从变量到异常处理(第一二天)

Task 02 - 部分学习内容解析与补充 Python基础练习:数据结构大汇总(第一天)

END😁

望批评指正

原创不易 如果认为对你学习有帮助

欢迎收藏❤帮我点个赞👍谢谢你哦❤

未经同意不准转载^ . ^

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值