数据分析——案例分析（一）

m0_74988308

于 2023-07-14 20:48:05 发布

阅读量49

点赞数

文章标签：数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74988308/article/details/131731091

版权

文章通过Python库如pandas和sklearn对Excel销售数据进行预处理，包括去除缺失值和异常值，合并年份数据，计算日期间隔，并基于会员ID进行RFM分析（最近购买时间、购买频率、消费金额）。此外，使用Echarts展示数据可视化。

摘要由CSDN通过智能技术生成

1.导入库

import time 
import numpy as np 
import pandas as pd 
import pymysql 
from sklearn.ensemble import RandomForestClassifier 
from pyecharts.charts import Bar3D 
from pyecharts import options as opts

2.读取数据

sheet_names = ['2015','2016','2017','2018','会员等级']
sheet_datas = [pd.read_excel('sales.xlsx',sheet_name=i) for i in sheet_names]

3.数据审查

for each_name,each_data in zip(sheet_names,sheet_datas):    
    print('[data summary for {0:=^50}]'.format(each_name))
    print('Overview:','\n',each_data.head(4))
    print('DESC:','\n',each_data.describe())
    print('NA records',each_data.isnull().any(axis=1).sum()) 
    print('Dtypes',each_data.dtypes)

查看前4条数据，查看描述性统计结果，判断记录缺失值，查看字段数据类型

4.数据预处理

1）去除缺失值和异常值：

for ind,each_data in enumerate(sheet_datas[:-1]):    
    sheet_datas[ind] = each_data.dropna()
    sheet_datas[ind] = each_data[each_data['订单金额'] > 1]
    sheet_datas[ind]['max_year_date'] = each_data['提交日期'].max()

去除缺失值、无意义数据，增加一列记录日期最大值，方便后续进行计算分析

2）汇总数据：

data_merge = pd.concat(sheet_datas[:-1],axis=0)

上下合并

3）获取各自年份数据并#转换日期间隔为数字

data_merge['date_interval'] = data_merge['max_year_date']-data_merge['提交日期']
data_merge['year'] = data_merge['提交日期'].dt.year

data_merge['date_interval'] = data_merge['date_interval'].apply(lambda x: x.days)

4）按会员ID做汇总并进行重命名

rfm_gb = data_merge.groupby(['year','会员ID'],as_index=False).agg({'date_interval': 'min',  
                                                   '提交日期': 'count', 
                                                   '订单金额': 'sum'}) 
rfm_gb.columns =  ['year','会员ID','r','f','m']
rfm_gb.head()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析——案例分析（一）

数据分析案例自学记录（一）
复制链接

扫一扫

m0_74988308 CSDN认证博客专家 CSDN认证企业博客

码龄2年

14: 原创

135万+: 周排名

122万+: 总排名

1581: 访问

: 等级

145: 积分

3: 粉丝

4: 获赞

9: 评论

3: 收藏

私信

关注

热门文章

最新评论

分类分析案例
Shellyannnn: 求数据～
Python异常值处理（学习记录）
CSDN-Ada助手: 恭喜你开始了自己的博客创作！标题看起来很有意思，我期待你在Python异常值处理方面的学习记录。在下一篇博客中，也许你可以分享一些实际案例，展示如何运用Python来处理异常值。希望你能继续保持谦虚的态度，并继续分享你的学习成果。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
数据分析——案例分析（一）
CSDN-Ada助手: 这是一篇很有潜力的博客！你的标题和摘要很吸引人，让我对你的自学记录充满了期待。继续保持创作的热情吧！除了数据分析的案例分析，你也可以探索一些常用的数据分析工具和技术，比如Python编程语言和其相关的数据分析库，如Pandas和NumPy。此外，了解一些统计学的基础知识也会对你的案例分析有所帮助。希望你在未来的博文中能够分享更多有趣的数据分析案例，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据分析——案例分析（二）
CSDN-Ada助手: 恭喜您继续创作并分享了第三篇博客！标题“数据分析——案例分析（二）”看起来非常吸引人。您对案例分析的深入探讨让读者更深入理解数据分析的实际应用。我非常期待看到您未来的创作。在下一篇博客中，我建议您可以考虑加入一些关于数据分析工具和技术的介绍，以帮助读者更好地理解案例分析的方法和步骤。此外，您还可以分享一些您在实际案例中遇到的挑战，并提供解决问题的方法和建议。这样的创作将进一步丰富读者的知识，并激发更多的思考和讨论。期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
流量数据运营化
CSDN-Ada助手: 亲爱的作者，恭喜您写了这篇关于“流量数据运营化”的博客！您的坚持和创作热情真是值得赞扬。通过深入探讨这个话题，您不仅向读者传递了有价值的知识，还帮助了我们更好地理解如何运用流量数据来提升业务效益。鉴于您在这一领域的专业知识和经验，我非常期待您继续分享更多关于流量数据运营化的内容。也许您可以考虑探讨一些实用的案例，或是分享一些有效的技巧和策略，以帮助读者更好地应用这些概念到现实中。请继续保持谦逊的态度，因为您的博客不仅仅是在传递知识，更是在建立友善和融洽的社区。期待您下一步的创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。