冻成狗啦我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了-CSDN博客

本文链接：https://blog.csdn.net/m0_57227221/article/details/121750256

博主使用Python爬取淘宝2008条棉袄商品数据，通过数据清洗和可视化分析，揭示了棉袄的价格区间、销售特点和产地分布，发现价格亲民且销量高的商家。

摘要由CSDN通过智能技术生成

转眼就到12月份了，但是没想到今年的冬天这么冷，基本取暖靠抖，太冷啦！

于是，赶紧打开了Python，用它爬取并分析一波棉袄，找到一件最合适的棉袄给裹到身上。

01 数据采集

数据采集是数据可视化分析的第一步，也是最基础的一步，数据采集的数量和质量越高，后面分析的准确的也就越高，我们来看一下淘宝网的数据该如何爬取。

淘宝网站是一个动态加载的网站，我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据，但是现在淘宝对接口进行了加密，使我们很难分析出来其中的规律，同时淘宝也对Selenium进行了反爬限制，所以我们要换种思路来进行数据获取。

打开开发者模式，开始对网页进行观察后发现，淘宝商品的数据竟然在源网页中存储着。

我翻了几页网页之后发现，每翻一页，网页的params参数中的s参数就会增加44(初始值是0)。

经过以上分析，现在我们就可以开始构造爬虫程序了。

1. 导入爬虫使用的库

import requests
import re
import time
import random
import openpyxl

2. 发起请求

for page in range(1,101):
   params = (
       ('q', '棉袄'),
       ('imgfile', ''),
       ('commend', 'all'),
       ('ssid', 's5-e'),
       ('search_type', 'item'),
       ('sourceId', 'tb.index'),
       ('spm', 'a21bo.jianhua.201856-taobao-item.2'),
       ('ie', 'utf8'),
       ('initiative_id', 'tbindexz_20170306'),
       ('hintq', '1'),
       ('s', str(page*44)),
   )
response = requests.get(url