数据分析：数据处理流程（待补充）

最新推荐文章于 2023-04-14 23:56:05 发布

Weidong He.

最新推荐文章于 2023-04-14 23:56:05 发布

阅读量606

点赞数

分类专栏： Python学习笔记文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/koksir/article/details/115293632

版权

Python学习笔记专栏收录该内容

25 篇文章 0 订阅

订阅专栏

待补充

总结的一些数据处理的流程和方法

数据清洗：从数据库或爬虫等地方拿到数据，处理不同的格式数据
探索性数据分析(EDA): 找到数据的问题所在

①.查看缺失值：缺失值多或少有不同的处理方式 data.info()

②.查看唯一值：非重复值有多少，查看每一个值的数量，判断数据连续或离散类型,也可以用来做特征筛选，值得类型单一对于数据没有价值，由此可以引出用方差进行特征筛选，方差越小，特征可用性的可能性越小。 data.column.nunique() 或 np.unique(data.column)

③.处理时间格式数据：数据中可能存在时间数据，形式可能是int或object，对时间数据单独处理

④.判断是否为连续型数据：是否为连续型数据需要根据经验或者实验来做一个划分界限，连续型数据大概率为数值型数据，离散型数据大概率为object类型，利用这一特性对数据进行筛选，筛选后结合特征的实际意义再次对数据进行观察。若发现存疑数据，先做保留不使用。 data.select_dtypes(include=None, exclude=None) 参数include为包含，exclude为不包含，传入数据类型，列表或字符串

⑤.多次筛选后，数据便区分开了，分为来连续型，离散型和存疑型数据。存疑数据自然需要去验证确定其意义，无法确定就不用。连续型的数据要查看数据分布，数据若是分布不均匀，可利用对数分布进行转换，若有异常值，可考虑用分享的办法消除异常值。最终对数据进行标准化或独热等操作。

特征工程：解决EDA中的问题

①. 将在EDA中发现的问题用其相对应的方法进行操作
②. 通过数据之间的关联发现更多的特征带入到模型，有可能会帮助到模型有更准确的预测结果，并不一定每一个新特征都会带来好的结果，所以这一过程需要不断的尝试，来帮助找到一个更好的模型。
③. 查看每一个特征与标签之间的关系，如果能够呈现出比较明显的结果或能看出比较有意义的结论，那么可以认为是一个有效的特征。
④. 在处理缺失值时，可以尝试利用相关的列建立模型，进行预测

建模

调包，尝试各模型，找到最合适的模型

将多列数据变为一列的方法

pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)

参数解释：
frame:要处理的数据集。
id_vars:不需要被转换的列名。
value_vars:需要转换的列名，如果剩下的列全部都要转换，就不用写了。
var_name和value_name是自定义设置对应的列名。
col_level :如果列是MultiIndex，则使用此级别。

Weidong He.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据分析：数据处理流程（待补充）

待补充总结的一些数据处理的流程和方法数据清洗：从数据库或爬虫等地方拿到数据，处理不同的格式数据探索性数据分析(EDA): 找到数据的问题所在①.查看缺失值：缺失值多或少有不同的处理方式 data.info()②.查看唯一值：非重复值有多少，查看每一个值的数量，判断数据连续或离散类型,也可以用来做特征筛选，值得类型单一对于数据没有价值，由此可以引出用方差进行特征筛选，方差越小，特征可用性的可能性越小。 data.column.nunique() 或 np.unique(data.c
复制链接

扫一扫