数据分析——数据处理

数据处理步骤

1.数据清洗

1)处理缺失值
 ①查看
  df.info():查看数据基本信息
 ②查找
  df.isna():查找DataFrame对象缺失值,缺失数据用True表示,False表示不缺失
  df[‘列索引’].isna():指定列查找缺失值
  Series.isna():查找Series对象缺失值
 ③删除
  df.dropna():删除两大对象中含有缺失的数据(行)
  df.dropna(subset=[‘列索引’]):删除指定列缺失的行
 ④填充
  fillna()方法给缺失值填充数据
  df[‘列索引’]=df[‘列索引’].fillna(‘补充数据’)
2)处理重复值
 ①查找
  df.duplicated():查找DataFrame对象重复值,返回Series对象,重复为True,不重复为False
 ②查看
  df[df.duplicated()]:列表索引查看数据(重复数据)
 ③删除
 df.drop_duplicates():删除重复行
3)处理异常值
  df.describe():描述性统计,返回以下结果

函数含义
count频数统计
mean平均值
std标准差
min最小值
max最大值
median中位数

计算机系统里:e+n代表的是10的n次方
布尔索引:对数据进行筛选:eg:df[年龄]>0
4)转换日期数据
  pd.to_datatime(arg,format)
   arg:pd[‘列索引’]=要转化的数据
   format:format=’%Y-%m-%d’,占位匹配符在‘Y’,‘m’,'d’之前。Y大写,m和d小写

2.数据整理

 提取时间信息:
  Series.dt.year:提取年
  Series.dt.month:提取月
  Series.dt.day:提取日
 添加新列:
 df[‘colname’]=Series

3.数据写入

 df.to_csv(path,encoding),index=False:将整理好的数据写入CSV文件中,index表示取消写入行索引
 path为文件路劲(相对路径\绝对路径)
 encoding为编码格式

4.离群值(outliers)

 1)通过业务/领域知识,统计指标、数据可视化(描述性统计)识别离群值。
 2)不可条件反射般剔除
 3)数据丢失/录入或记录错误导致
知识点:集中趋势指标,离散趋势指标,双称正态分布且数据连续,偏态分布,类别数据(CDA考试知识点已列出来)

  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值