一、项目背景
此Online Retail II数据集包含2009年12月1日至2011年12月9日期间在英国注册的非店铺在线零售发生的所有交易。该公司主要销售独特的所有场合礼品。该公司的许多客户都是批发商。
电子商务公司希望对其客户进行细分,并根据这些细分确定营销策略。为此,我们将定义客户的行为,并根据这些行为中的集群创建组。换句话说,我们将把那些表现出共同行为的人纳入同一群体,我们将努力为这些群体开发特殊的销售和营销技术。
字段 | 定义 |
---|---|
InvoiceNo | 发票编号:名义上的唯一分配给每笔交易的6位整数。如果此代码以字母“c”开头,则表示取消。 |
StockCode | 库存代码:产品(物料)代码。名义上的唯一分配给每个不同乘积的5位整数。 |
Description | 说明:产品(项)名称。名义上的 |
Quantity | 数量:每笔交易中每个产品(项目)的数量。数字。 |
Invice | 发票日期:日期和时间。数字。生成事务的日期和时间。 |
Price | 单价:单价。数字。单位产品价格(英镑)。 |
Customer ID | 客户ID:客户编号。名义上的唯一分配给每个客户的5位整数。 |
Country | 国家:国家名称。名义上的客户所在国家/地区的名称。 |
二、数据清洗
#数据清洗
update online_retail_listing set price = replace(PRICE,",",".")
# 后在设计表的界面内将其调整为int格式
alter table online_retail_listing ADD InvoiceTime time(5);
update online_retail_listing set InvoiceTime = right(InvoiceDate,5);
UPDATE online_retail_listing SET InvoiceDate2 = LEFT (InvoiceDate, locate ( " ", InvoiceDate )- 1 );
UPDATE online_retail_listing SET InvoiceDate1 = concat(right(InvoiceDate2,4),'-',substring(InvoiceDate2,locate('.',InvoiceDate2)+1,locate('.',InvoiceDate2,2)),'-',left(InvoiceDate2,locate('.',InvoiceDate2)