电商数据分析项目总结!||主流电商平台订单类项目的经验分享

订单数据作为电商数据分析中的基础分析项目,本项目就京东的订单数据进行分析。通过数据分析和可视化深挖数据产生的原因,掌握基础的数据分析能力。

1.关于本项目

1.1数据来源【电商API数据采集接口

本次数据来源于京东2020年5月25日 大家电-冰箱的订单数据 按照10%的随机抽样后进行数据脱敏最后得到的订单数据,共有订单数据大约70K,数据来源于公开网络数据。

1.2数据所包含信息

订单中的属性将其分成了3类,分别是用户属性、订单属性以及商品属性

图片

2.数据预处理

本项目使用python对数据进行处理 使用plotly进行数据可视化

import pandas as pd
import numpy as np
import plotly_express as px
import plotly.offline as of
import plotly as py
import plotly.graph_objs as go

读取提供的数据

df=pd.read_csv('data.csv',sep='\t', encoding="utf-8", dtype=str)

查看数据的缺失值

df.isnull().sum().sort_values(ascending=False)

user_site_city_id 38190
user_site_province_id 38033
check_account_tm 23271

通过观察发现,这3个数据有部分缺失值,其中user_site_city_id 用户所在城市编号,user_site_province_id 用户所在省份的编号,check_account_tm支付时间

这部分数据的缺失是因为用户填写个人资料时跳过的部分,当然这不影响我们整个数据的分析

我们首先是将数据的类型进行转换 同时处理缺失值和异常值

  • 值得注意的是,通过观察我们发现冰箱最低的价格是288元,但是数据中发现了很多低于288元的订单数据,我们认为这部分数据不能真实代表冰箱实际的订单数据,可能出现了补差价或者补运费的情况,因此这样的数据我们都过滤掉。

  • 因为订单的编号具有唯一性,因此对于订单编号的重复数据,我们认为出现了重复订单

  • 对于缺失的省份值和缺失的数据,我们将空白地方进行填充

  • 通过观察,我们发现数据的列有重复,对于删除重复的列,这里提供一个比较有意思的做法,将数据反转后,删除重复的行再反转回来。

  • 实际支付的价格=商品数量*优惠后的单价

#删除优惠前价格小于288元的
df = df[df['before_prefr_unit_price' ]>= 288]
#订单编号具有唯一性,因此
### Python 电商数据分析项目示例 #### 数据获取与准备 为了进行有效的电商数据分析,通常会先收集电商平台上的商品信息。这可以通过网页抓取来完成[^2]。一旦获得了原始数据,就需要利用 `Pandas` 库来进行清洗和整理工作。 ```python import pandas as pd # 假设我们有一个CSV文件包含了电商交易记录 data = pd.read_csv('ecommerce_data.csv') # 查看前几行的数据结构 print(data.head()) ``` #### 销售额统计分析 接着,可以计算各产品的总销售额,并对其进行排序以便找出最畅销的产品[^3]: ```python # 计算每种产品的总销量(价格乘以数量) product_sales = data.groupby('product_name').agg({'price': sum, 'quantity': sum}) product_sales['total_sales'] = product_sales['price'] * product_sales['quantity'] # 对产品按销售额降序排列 product_sales_sorted = product_sales.sort_values(by='total_sales', ascending=False) # 显示排名前十的商品及其销售额 top_products = product_sales_sorted[['total_sales']].head(10) print(top_products) ``` #### 可视化展示结果 最后一步是将上述分析的结果可视化出来,这里采用的是 `Matplotlib` 来绘制柱状图表示不同产品的销售业绩[^1]: ```python import matplotlib.pyplot as plt plt.figure(figsize=(10, 6)) plt.barh(y=top_products.index, width=top_products.total_sales.values) plt.title('Top Selling Products') plt.xlabel('Total Sales (Price * Quantity)') plt.ylabel('Product Name') plt.tight_layout() plt.show() ``` 此过程不仅展示了如何运用Python中的多个流行库执行完整的电子商务数据分析流程——从数据采集到最终呈现;同时也强调了在实践中灵活应用各种技术和方法的重要性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值