今年不知道有多少小伙伴留在原地过年,虽然今年过年不能回老家,但这个年也得过,也得买年货,给家人长辈送礼。于是我出于好奇心的想法利用爬虫获取某宝数据,并结合 Python 数据分析和第三方可视化平台来分析一下大家过年都买了哪些东西,分析结果大屏如下:
上面使用清洗好的数据后用 finebi 第三方可视化工具完成的。接下来是用 Python 的实现过程,对于本文的叙述,主要分为以下五步:
-
分析思路
-
爬虫部分
-
数据清洗
-
数据可视化及分析
-
结论与建议
一、分析思路
其实就今天的数据来讲,我们主要做的是探索性分析;首先梳理已有的字段,有标题(提取出品类)、价格、销量、店铺名、发货地。下面来做一下详细的维度拆分以及可视化图形选择:
品类:
-
品类销量的 TOP 10 有哪些?(表格或者横向条形图)
-
热门(出现次数最多)品类展示;(词云)
**价格:**年货的价格区间分布情况;(圆环图,观察占比)
销量、店铺名:
-
店铺销量最高的 TOP 10 有哪些?(条形图)
-
结合品类做联动,比如点坚果,对应展示销量排名的店铺;(联动,利用三方工具)
**发货地:**销量最高的城市有哪些?(地图)
二、爬取数据
爬取主要利用 selenium 模拟点击浏览器,前提是已经安装 selenium 和浏览器驱动,这里我是用的 Google 浏览器,找到对应的版本号后并下载对应的版本驱动,一定要对应浏览器的版本号。
pip install selenium
安装成功后,运行如下代码,输入关键字"年货",进行扫码就可以了,等着程序慢慢采集。
# coding=utf8
import re
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import time
import csv
# 搜索商品,获取商品页码
def search_product(key_word):