数据处理的一般步骤

# import pandas as pd
#
# #步骤一:提出问题
# #步骤二:理解数据
# # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel()
# # 2,查看导入数据的基本情况:参数:dtypes,shape,values   函数有:head() type()
#
# # 步骤三:数据清洗(重点)
# # 1,选择子集:若数据中项目较多,可以选择其中一些
# # 2,列名重命名
# # 更改列名所用函数:a={'a':'b'} data.rename(columns=a,inplace=True)      为什么用集合呢? 可能是有针对的改,所以不是用[]
#
# 3,缺失数据处理
# (1),首先判断哪里有缺失值:矩阵式显示:data.isnull()  每一列显示:data.isnull().any()
#     判断有多少个缺失值:  data[data[['销售时间','社保卡号']].isnull().values == True]
# (2),删除:当缺失数据占总数据量的比例很小的时候,我们通常采用删除的处理方法。大概比例是____
#     合理值填充:在某些不适合删除的场合,我们有时候也会对缺失数据进行合理值填充,如平均值,中位数,相邻数据等等。
#              去重:drop_duplicates(keep:(first[保留第一个],last[保留最后一个],False[不保留])subset:(选择列) inplace)  默认为first,全部列,False
# (3)数据类型的转换:dateSer=pd.to_datetime(salesDf['销售时间'], format = '%Y-%m-%d', errors='coerce')(把object转换为日期类型)  split(''):以''为分割符
# # 4,数据排序
# #按销售时间排序
# df = df.sort_values(by='销售时间')
# #再次更新一下序号
# df = df.reset_index(drop = True)
# # 5,异常值处理
# salesDf.describe()  输出均值什么的
# # 步骤四:构建模型        自己想有哪些标准
# # 1,业务指标1:月均消费次数=总消费次数/月份数
# # 2.业务指标2:月均消费金额=总消费金额/月份数
# # .......
# # 步骤五:数据可视化
  • 6
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值