一、案例数据
数据来源
理解数据
数据集包括27599条记录和7个特征变量,数据字典如下:
字段 | 含义 |
---|---|
update_time | 交易时间 |
id | 产品编号 |
title | 产品名称 |
price | 单价 |
sale_count | 销量 |
comment_count | 评论数量 |
店名 | 店铺名称 |
说明:
1.每一条记录对应一个产品的销售情况。
2.为了保护商家隐私,数据集中的店名被处理成了化妆品品牌名。
二、数据处理
导入数据库
在MySQL中创建数据库TmallMakeUp2016以及表ProductSale来存储数据。
-- 步骤1:创建数据库TmallMakeUp2016
CREATE DATABASE TmallMakeUp2016;
-- 步骤2:创建表ProductSale
USE TmallMakeUp2016;
CREATE TABLE ProductSale(
product_id VARCHAR(255) NOT NULL,
product_name VARCHAR(255) NOT NULL,
product_brand VARCHAR(255) NOT NULL,
product_price DOUBLE NOT NULL,
product_comment INT(15),
sale_time DATE NOT NULL,
sale_count INT(15)
);
-- 步骤3:MySQL命令行导入数据
LOAD DATA LOCAL INFILE 'F:/sql_work/TmallMakeUp2016/TMALLMAKEUP2016.csv' INTO TABLE TmallMakeUp2016.ProductSale
FIELDS TERMINATED BY ','
IGNORE 1 LINES;
-- 步骤4:确认表内容
SELECT * FROM ProductSale;
数据导入结果如下:
数据清洗
用COUNT函数统计各列数据记录数,查看是否有缺失值。
-- 统计缺失值
SELECT COUNT(product_id),
COUNT(product_name),
COUNT(product_brand),
COUNT(product_price),
COUNT(product_comment),
COUNT(sale_time),
COUNT(sale_count)
FROM ProductSale;
缺失值统计结果如下: