1. 京东订单数据准备
1.1 京东订单数据介绍
- 2020年5月25日
- 10%抽样数据
- 大家电-家用电器-冰箱
- 70K+
1.2 数据清洗
- 缺失值处理
用户城市和省份信息有部分缺失,部分订单的订单中支付时间为空值
- 数据逻辑错误
- 格式内容一致性
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from matplotlib.ticker import FuncFormatter
plt.rcParams['font.sans-serif']=['SimHei']
import warnings
warnings.filterwarnings('ignore')
order = r"/Users/zhangqin/Documents/python学习/笔记整理/京东数据分析/课件/京东订单实战/course_order_d.csv"
df = pd.read_csv(order,sep='\t', encoding="utf-8", dtype=str)
df.isnull().sum().sort_values(ascending = False)

df["sale_qtty"] = df["sale_qtty"].astype("int")
df["sale_ord_valid_flag"] = df["sale_ord_valid_flag"].astype("int")
df["cancel_flag"] = df["cancel_flag"].astype("int")
df["self_ord_flag"] = df["self_ord_flag"].astype("int")
df['before_prefr_unit_price'