用SQL分析天猫耐克鞋子价格
![36ad460966619dec0096510b7f1b44d8.png](https://i-blog.csdnimg.cn/blog_migrate/d29457c7f81ebd8b01c2d5b4692c8abd.jpeg)
一、提出问题:
我想知道以下几点:
1、天猫上耐克鞋子交易笔数高的价格大概在什么价位;
2、男女对应的价格是多少;
3、店家最高的交易笔数是多少;
二、理解数据:
1、我用集搜客采集到的数据是以下格式:
![073ac4f1be0077626a79a27a5c167ac5.png](https://i-blog.csdnimg.cn/blog_migrate/2573987d2c669bef5006b78cf5d14433.jpeg)
基本上框起来的列没什么用,所以就删除了,不导入到数据库里了。
2、因为SQL涉及到一个主键的问题,如果以商品名称为主键,会有重复值,会导致有些重复行导入不到数据库里 ,所以在A列前面增加了一列,=B2&C2&D2&E2&F2
![87a843af4ff8a323a7e096ca7609e058.png](https://i-blog.csdnimg.cn/blog_migrate/4724b8c0acf054272b6f322dfbe1213c.jpeg)
然后选中所有数据,删除重复值,这样就从19192行,变成了5123行了。
![349bf9ae5bbebb7397e4926ae0e4e49e.png](https://i-blog.csdnimg.cn/blog_migrate/ffdad1775643efd9ccd8e56e657b6338.jpeg)
![a934a503d5ceb173d14ae8c2a09efaa7.png](https://i-blog.csdnimg.cn/blog_migrate/d7357c3e3ef9c94995d8f25f45bf066e.jpeg)
3、经过整理后就剩下“合并信息”、“价格”、“商品名称”、“卖家”、“月成交笔数”、“评价数”,这5列数据。
![cac37fa867b5e4c16dfbb94590f70629.png](https://i-blog.csdnimg.cn/blog_migrate/07d6dcf3f24cec29fe7edd091e40bca1.jpeg)
三、数据清洗:
1、发现数据存在几个问题:
(1)价格列,前面有个金钱符号,要去掉;价格有两位小数点也去掉;而且是文本格式,要转换成数值格式;
(2)月成交笔数,有“笔”字,去掉;
(3)评价数,单位不统一,有的是以“一”为单位,有的是以“万”为单位,而且是文本格式,也要转换成数值格式;
(4)需增加一列,从“商品名称”中提取性别:即商品名称中包含“男”,性别则为“男”,同理商品名称中包含“女”,性别则为”女“,“男女”都没有提到的,则为“中性”;
以上问题,通过EXCEL进行处理,得出以下数据:
![ed19caf58e6fcd58d8d486def072b79a.png](https://i-blog.csdnimg.cn/blog_migrate/24fb6c50fd37a69d813dae09b71af084.jpeg)
2、建表,导入数据:
![5dc5b016e3ca39be8e5d8832e458c73c.png](https://i-blog.csdnimg.cn/blog_migrate/3d180e799b41cec9cab8360a09372f89.jpeg)
![98c7c30d5ccd38e8a443a2b26a02c300.png](https://i-blog.csdnimg.cn/blog_migrate/f94a80c5665506e481ddbbcbf777f747.jpeg)
设置合并信息为主键。
![d054d4927e4e73ded14ab3776872f7b9.png](https://i-blog.csdnimg.cn/blog_migrate/493c52f3f6dd4db4c845381d929b6d15.jpeg)
这样数据就导入到数据库里了。
3、检查下是否所有行都导入了:
![9ec1b3dcfeb80097708c9d0fe6a20587.png](https://i-blog.csdnimg.cn/blog_migrate/cc1023abeec355e7594ded4b0df3f13f.jpeg)
5123行扣掉第一行字段行,是有5122行数据没错。
四、数据建模及数据可视化:
1、价格段分析:价格从100多到两万多都有,价格段拟分为:100-500,500-1000,1000-2000,2000-5000,5000-10000,10000-20000,20000以上
![b31a33bf90ebf34b13ebd7c6cd8ccfc4.png](https://i-blog.csdnimg.cn/blog_migrate/569c76ec25b19c5e0977ca8f4870e078.jpeg)
![2f65dfbac5db70ae58a9139e33ea23d9.png](https://i-blog.csdnimg.cn/blog_migrate/7d74d2eda5767ab13839239d192c20a4.jpeg)
由上可见,100-500价格段的购买人数比较多,其次是500-1000,再次是1000-2000,超过5000的基本就很少人买了。分类的价格段与成交比数成反比。价格段约低,成交笔数约高,价格段约高,成交笔数约低。
2、卖家分析:
(1)天猫上有多少卖家在卖耐克的鞋子:
![ddff584be23fb66a39debdeb7b253e7b.png](https://i-blog.csdnimg.cn/blog_migrate/b25a66f77b12146e708170c0800a10e3.jpeg)
天猫上有93家卖家在卖耐克的鞋子。
(2)月有产生销售的卖家有几家:
![30058f23ac84eaae10d39f49b4c899db.png](https://i-blog.csdnimg.cn/blog_migrate/2c32f2e869f79431e1b265369878ae28.jpeg)
93家卖家中,月有产生销售的有92家,只有一家没有产生销售。
(3)月成交笔数前15的卖家是哪几家,销售第一是谁?
![7bbc2cd50354cc5cd8e2cc78c1e4ec68.png](https://i-blog.csdnimg.cn/blog_migrate/a1b78bca91b2ebc64d16496b339de825.jpeg)
![1d2e7b06dc8e4dddb7671977b68eef60.png](https://i-blog.csdnimg.cn/blog_migrate/f8b00845c20c0444a5159e5cae5b08f8.jpeg)
由上可见,销售第一的店铺是“NIKE官方旗舰店”,月成交笔数534246,且遥遥领先第二名“速捷运动专营店”的月成交笔数18937,可见大家对官方旗舰店还是比较信赖的。
3、性别分析:
男、女、中性性别中,月成交笔数各是多少,占比多少。
![97a9062f0ad1022a5336e9e638641cb1.png](https://i-blog.csdnimg.cn/blog_migrate/b9500eea4d21043cbc2c029644a418d5.jpeg)
由上可见,男鞋卖得比女鞋好,男鞋占比达74%,女鞋只有25%,中性(没有表明男女)的只占了1%。