2021-02-07

数据分析笔记——python数据处理基础知识

数据分析流程
1、明确目的
2、数据:数据获取→数据清洗→数据整理
3、算法:模型(调优)
4、业务:多维度分析→建议结论
数据处理
(1)重复值处理:删;
file.info()#查看file的每列信息
若含有重复值,则:
duplicated_index=file.dumplicated(keep=Flase)# keep=Flase可以保留所有重复行
file[file[duplicated_index]].sort_values([‘列A’, ‘列B’,…‘列M’])#查看这些列的所有重复行
file.drop_duplicateds(inplace=True)#删除所有重复行,只保留不重复的行
(2)缺失值处理
缺失占比大:删
缺失占比小:均值、中位数、众数,模型拟合填充;
file.drop_na(subset=’列A’,inplace=True)
(3)异常值处理
① 3δ原则(与平均值的偏差>3个标准差)
import numpy as np
p_mean=np.mean(file[‘Price’])#均值
p_std=np.std(file[‘Price’])#标准差
low_bound=p_mean-3×p_std#下界
high_bound=p_mean+3×p_std#上界
② 箱线图
p_qu= file[‘Price’].quabtile(q=0.75) #上4分位
p_qr= file[‘Price’].quabtile(q=0.25) #下4分位
max_bound=p_qu+1.5×d#上界
min_bound=p_qr-1.5×d#下界
(4)数据整理和汇总
① 删除无用字段:file.drop([ ‘列B’,…‘列D’])
② 新增一列(例如新增销售金额列):file[‘SaleMoney’]= file[‘Price’]* file[‘Quantily’]
③ 转换日期类型
import pandas as pd
file.info()#查看file的每列类型信息
file[‘Time’]=pd.to_time(file[‘Time’])
④ 重置索引
file.reset_index(drop=True)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值