那我们今天的目标有哪些呢?我们来看看:
-
分析避孕套标题高频关键字
-
分析避孕套标题高频关键字 与 商品数量关系
-
分析避孕套标题高频关键字 与 平均销量关系
-
分析避孕套标题高频关键字 与 平均售价关系
-
分析避孕套商品价格区间分布关系
-
分析避孕套商品销量区间分布关系
-
分析避孕套商品价格区间 与 平均销量关系
-
分析避孕套商家数量全国分布关系
-
分析避孕套商家全国平均销量关系
注意: 以上数据分析全部基于上次爬取的2500款淘宝商品(默认排序),并不代表淘宝所有避孕套商品!
二、分析实现
有了明确的目标之后,我们就要开始技术选型。
首先数据处理的库这个很好确定,基本就是numpy和pandas这两个必备的库,所以大家首先确保已经安装了这两个库。
然后数据可视化库呢?这么多可视化库该怎么选?如果你不知道怎么选,那小编给你推荐:pyecharts 这个由中国人开发的可视化库,想要什么类型的图在下面文档里面找就行。
最后技术选型完毕,我们就可以开始正式的敲代码分析了。(分析的标题将和上面的分析目标一一对应)
0.数据清洗
在我们数据分析之前,我们需要对数据进行清洗。因为从淘宝爬取下来的数据并不是标准的数据,比如:商品销量,爬取下来的数据是:2.5万+人付款,我们需要将它转为:25000(整型),这样才方面后面的处理!
我们先来看看从淘宝爬取的原始数据,看看那些数据需要清洗
根据使用库的经验小编认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!
大家可以看到最后小编又从新生成了一个excel文件,目的就是不去污染原始数据,因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!
1.分析避孕套标题高频关键字
数据清洗完毕之后,我们就可以开始分析了。
分