超市电商数据分析
本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。
详细字段如下
Row ID:行编号;
Order ID:订单ID;
Order Date:订单日期;
Ship Date:发货日期;
Ship Mode:发货模式;
Customer ID:客户ID;
Customer Name:客户姓名;
Segment:客户类别;
City:客户所在城市;
State:客户城市所在州;
Country:客户所在国家;
Postal Code:邮编;
Market:商店所属区域;
Region:商店所属州;
Product ID:产品ID;
Category:产品类别;
Sub-Category:产品子类别;
Product Name:产品名称;
Sales:销售额;
Quantity:销售量;
Discount:折扣;
Profit:利润;
Shipping Cost:发货成本;
Order Priority:订单优先级;
读取、清洗数据
使用pandas的read_csv读取数据
导入模块时遇到
D:\Anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject
return f(*args, **kwds)
numpy版本问题,警告可以不用管
导入数据报错
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf6 in position 10: invalid start byte
数据文件的编码问题导致的,加入encoding=‘ISO-8859-1’后解决
AttributeError: ‘Timestamp‘ object has no attribute ‘dt‘
这是我在进行dafaframe数据类型转换时的报错,对某一列数据data[‘XXX’][0].dt.date这么用的话就会报错, 直接data[‘XXX’].dt.date就好了