数据分析:数据处理流程(待补充)

待补充

总结的一些数据处理的流程和方法

  1. 数据清洗 :从数据库或爬虫等地方拿到数据,处理不同的格式数据
  2. 探索性数据分析(EDA): 找到数据的问题所在

①.查看缺失值:缺失值多或少有不同的处理方式 data.info()

②.查看唯一值: 非重复值有多少,查看每一个值的数量,判断数据连续或离散类型,也可以用来做特征筛选,值得类型单一对于数据没有价值,由此可以引出用方差进行特征筛选,方差越小,特征可用性的可能性越小。 data.column.nunique() 或 np.unique(data.column)

③.处理时间格式数据: 数据中可能存在时间数据,形式可能是int或object,对时间数据单独处理

④.判断是否为连续型数据: 是否为连续型数据需要根据经验或者实验来做一个划分界限,连续型数据大概率为数值型数据,离散型数据大概率为object类型,利用这一特性对数据进行筛选 ,筛选后结合特征的实际意义再次对数据进行观察。若发现存疑数据,先做保留不使用。 data.select_dtypes(include=None, exclude=None) 参数include为包含,exclude为不包含,传入数据类型,列表或字符串

⑤.多次筛选后,数据便区分开了,分为来连续型,离散型和存疑型数据。存疑数据自然需要去验证确定其意义,无法确定就不用。连续型的数据要查看数据分布,数据若是分布不均匀,可利用对数分布进行转换,若有异常值,可考虑用分享的办法消除异常值。最终对数据进行标准化或独热等操作。

  1. 特征工程 : 解决EDA中的问题

①. 将在EDA中发现的问题用其相对应的方法进行操作
②. 通过数据之间的关联发现更多的特征带入到模型,有可能会帮助到模型有更准确的预测结果,并不一定每一个新特征都会带来好的结果,所以这一过程需要不断的尝试,来帮助找到一个更好的模型。
③. 查看每一个特征与标签之间的关系,如果能够呈现出比较明显的结果或能看出比较有意义的结论,那么可以认为是一个有效的特征。
④. 在处理缺失值时,可以尝试利用相关的列建立模型,进行预测

  1. 建模

调包,尝试各模型,找到最合适的模型

将多列数据变为一列的方法

pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)

参数解释:
frame:要处理的数据集。
id_vars:不需要被转换的列名。
value_vars:需要转换的列名,如果剩下的列全部都要转换,就不用写了。
var_name和value_name是自定义设置对应的列名。
col_level :如果列是MultiIndex,则使用此级别。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Weidong He.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值