-
商品价格对销售额的影响分析
-
不同省份或城市的商品数量分布
-
不同省份的商品平均销量分布
注:本项目仅以以上几项分析为例。
项目步骤
-
数据采集:Python 爬取淘宝网商品数据
-
对数据进行清洗和处理
-
文本分析:jieba 分词、wordcloud 可视化
-
数据柱形图可视化:barh
-
数据直方图可视化:hist
-
数据散点图可视化:scatter
-
数据回归分析可视化:regplot
工具&模块
-
**工具:**本案例代码编辑工具 Anaconda 的 Spyder。
-
**模块:**requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。
爬取数据
因淘宝网是反爬虫的,虽然使用多线程、修改 headers 参数,但仍然不能保证每次 100% 爬取,所以我增加了循环爬取,每次循环爬取未爬取成功的页 ,直至所有页爬取成功停止。
说明:淘宝商品页为 JSON 格式,这里使用正则表达式进行解析。
代码如下:
数据清洗、处理
数据清洗、处理这个步骤也可以在 Excel 中完成,再读入数据。
代码如下: