![39fbd2a49117b8b2129c8823a2bc4ccd.png](https://img-blog.csdnimg.cn/img_convert/39fbd2a49117b8b2129c8823a2bc4ccd.png)
一、提出问题
1.销量排名前五的商品、商品种类。
2.点击排名前五的商品、商品种类。
3.用户行为排名前五的商品、商品种类。
4.销量排名前三的日期。
5.购买次数排名前五的用户。
6.点击数量与购买数量的相关性。
7.用户行为的转化率。
8.时间(例如周末、晚上)与销量是否有关
9.用户逛淘宝的时刻分布
二、理解数据
数据集包含了2017年11月25日(星期六)至2017年12月3日(星期日),共9日之中,有行为的92个随机用户的所有行为(行为包括点击pv、购买buy、加购cart、喜欢fav),共10066条数据,包含7416种商品,947种商品类目。
![8795fd01f62ee22d6065423b5d94c430.png](https://img-blog.csdnimg.cn/img_convert/8795fd01f62ee22d6065423b5d94c430.png)
三、数据清洗
1.选择子集
因仅有五个字段,均与分析有关,所以直接采用本数据集进行分析。
2.列名重命名
原数据集没有列名,在第一行添加各列列名。
3.删除重复值
同一客户可能点击很多种商品,不同的客户也可能在同一时间点击,同一客户也可能在同一时间购买不同的商品。
除非同一个客户在同一时间点击、加购、喜欢,否则没有重复值?
通过对时间列的条件格式显示重复值后排序,可能因为数据量过大EXCEL一直未响应,无法排序。
运用公式新增一列标记重复项后筛选重复项,excel勉强运行成功,发现186条重复值。但是通过观察发现,有同一客户在同一时间点对不同商品点击与加购的,还有同一客户在同一时间喜欢三种商品的,同一客户在同一时间点击不同商品的,是否为重复值或异常值?客户可能在一秒内点击不同商品吗?
因为只有168个,相对10063条数据来说占比较小,暂不处理此些数据。
4.缺失值处理
使用定位空值功能,未找到相应单元格,因而没有缺失值。
5.一致化处理
用户ID、商品ID、商品类目ID本身均是数值型,行为类型为文本型,时间戳经公式转换成时间后为文本型,并包含日期和时间,需要将其通过复制粘贴值的方式转换成数值后进行日期和时刻的分列。
6.数据排序
按照时间列将数据按时间排序。
7.异常值处理
因数据集是2017年11月25日至2017年12月3日,但通过筛选功能查看时间时发现数据中出现了9月11与11月24日的3条用户行为,不在分析数据范围内,将其删除。
四、构建模型
1. 销量排名前三的商品、商品种类。
有10种商品销量最高,均为购买过2次。
![2b56e3bd3056cf2079af1bcda4b02a4a.png](https://img-blog.csdnimg.cn/img_convert/2b56e3bd3056cf2079af1bcda4b02a4a.png)
购买最多的三种商品类目是835895/1620537/965809
![9087e160e9aa380f309c57590033fa84.png](https://img-blog.csdnimg.cn/img_convert/9087e160e9aa380f309c57590033fa84.png)
2. 点击排名前五的商品、商品种类。
由此可以判断商品推广效果等。
![2a33660648b6041334fa6d9fae85c3ce.png](https://img-blog.csdnimg.cn/img_convert/2a33660648b6041334fa6d9fae85c3ce.png)
![568f3f84d6c541ab270f327bd15fa8b8.png](https://img-blog.csdnimg.cn/img_convert/568f3f84d6c541ab270f327bd15fa8b8.png)
3. 用户行为排名前五的商品、商品种类。
![e0ebcdfe44dff01b4e78b05dd5a4dd23.png](https://img-blog.csdnimg.cn/img_convert/e0ebcdfe44dff01b4e78b05dd5a4dd23.png)
![38b81802f90f32eaf4be8f13dc64177d.png](https://img-blog.csdnimg.cn/img_convert/38b81802f90f32eaf4be8f13dc64177d.png)
4. 销量排名前三的日期。
![b9210f0b633dbc0b958e40977d0cb94a.png](https://img-blog.csdnimg.cn/img_convert/b9210f0b633dbc0b958e40977d0cb94a.png)
5. 购买次数排名前五的用户。
![f49c0e61cfa8dce0a7c91d8970898a6a.png](https://img-blog.csdnimg.cn/img_convert/f49c0e61cfa8dce0a7c91d8970898a6a.png)
6. 点击数量与购买数量的相关性。
如何用公式验证?
共 9天时间内总行为类型升序排列
![27703950f7096c8caf0a94a540747e48.png](https://img-blog.csdnimg.cn/img_convert/27703950f7096c8caf0a94a540747e48.png)
7. 用户行为的转化率。
从总数据看,点击最多,加购第二,喜欢第三,购买第四。
![2f42b3e7ff19a3ab2964414dd4379777.png](https://img-blog.csdnimg.cn/img_convert/2f42b3e7ff19a3ab2964414dd4379777.png)
但是用户行为转化率是否应该从每一个用户点击与购买的比率。取平均值来看?
计算每一个用户购买与点击的比率,通过描述统计分析得出以下结果,用户平均购买与点击比率为3.31%,中位数是1.14%。
![dce7faacd29c19ed93f5510098f2e9af.png](https://img-blog.csdnimg.cn/img_convert/dce7faacd29c19ed93f5510098f2e9af.png)
8. 时间(例如周末、晚上)与销量是否有关
对数据按用户行为总数排序,仅从这9日来看,用户行为与星期的关系尚不明确,如果说周末用户休息时间最多,用户行为频繁,但这9日中有两次周末,两次周末的用户行为数并不是均排名前列。
![8f183185b8c195d3c612a7f9d1a392c1.png](https://img-blog.csdnimg.cn/img_convert/8f183185b8c195d3c612a7f9d1a392c1.png)
用户购买行为与星期也并未显示出规律性。
![c9e62cb6020525931283c1103e00d313.png](https://img-blog.csdnimg.cn/img_convert/c9e62cb6020525931283c1103e00d313.png)
9. 用户逛淘宝的时刻分布
淘宝用户行为在晚上10点时最频繁,其次是晚8点与晚11点,根据分布图看出用户在一天下班后逛淘宝的时间更多。
![7da430277e193928a7b176596e3391db.png](https://img-blog.csdnimg.cn/img_convert/7da430277e193928a7b176596e3391db.png)
![9997723d9e2b8856a9832af2bada0607.png](https://img-blog.csdnimg.cn/img_convert/9997723d9e2b8856a9832af2bada0607.png)
五、分析总结
通过此次分析发现在分析思维及分析方法上存在很大短板,拿到数据后不知道通过何种方式来求证答案。对业务的理解需要加强。
数据量过小导致的数据结果不准确与数据量过大导致的EXCEL运行困难存在不可兼容性,一是通过改变分析方法减小运算量,二是通过学习其他数据处理软件来处理大量的数据。
另外在清洗数据时遇到很多小问题,均可通过百度找到答案。