2021-02-07

最新推荐文章于 2024-07-06 23:17:07 发布

m0_37910349

最新推荐文章于 2024-07-06 23:17:07 发布

阅读量80

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/m0_37910349/article/details/113744217

版权

数据分析笔记——python数据处理基础知识

数据分析流程：
1、明确目的
2、数据：数据获取→数据清洗→数据整理
3、算法：模型（调优）
4、业务：多维度分析→建议结论
数据处理
（1）重复值处理：删；
file.info()#查看file的每列信息
若含有重复值，则：
duplicated_index=file.dumplicated(keep=Flase)# keep=Flase可以保留所有重复行
file[file[duplicated_index]].sort_values([‘列A’, ‘列B’,…‘列M’])#查看这些列的所有重复行
file.drop_duplicateds(inplace=True)#删除所有重复行，只保留不重复的行
（2）缺失值处理
缺失占比大：删
缺失占比小：均值、中位数、众数，模型拟合填充；
file.drop_na(subset=’列A’,inplace=True)
（3）异常值处理
① 3δ原则（与平均值的偏差>3个标准差）
import numpy as np
p_mean=np.mean(file[‘Price’])#均值
p_std=np.std(file[‘Price’])#标准差
low_bound=p_mean-3×p_std#下界
high_bound=p_mean+3×p_std#上界
② 箱线图
p_qu= file[‘Price’].quabtile(q=0.75) #上4分位
p_qr= file[‘Price’].quabtile(q=0.25) #下4分位
max_bound=p_qu+1.5×d#上界
min_bound=p_qr-1.5×d#下界
（4）数据整理和汇总
① 删除无用字段：file.drop([ ‘列B’,…‘列D’])
② 新增一列（例如新增销售金额列）：file[‘SaleMoney’]= file[‘Price’]* file[‘Quantily’]
③ 转换日期类型
import pandas as pd
file.info()#查看file的每列类型信息
file[‘Time’]=pd.to_time(file[‘Time’])
④ 重置索引
file.reset_index(drop=True)

m0_37910349

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-02-07

数据分析笔记——python数据处理基础知识数据分析流程：1、明确目的2、数据：数据获取→数据清洗→数据整理3、算法：模型（调优）4、业务：多维度分析→建议结论数据处理（1）重复值处理：删；file.info()#查看file的每列信息若含有重复值，则：duplicated_index=file.dumplicated(keep=Flase)# keep=Flase可以保留所有重复行file[file[duplicated_index]].sort_values([‘列A’, ‘列B’
复制链接

扫一扫