冻成狗啦 我用Python爬取某宝2008条棉袄,终于买到心仪的棉袄了

博主使用Python爬取淘宝2008条棉袄商品数据,通过数据清洗和可视化分析,揭示了棉袄的价格区间、销售特点和产地分布,发现价格亲民且销量高的商家。
摘要由CSDN通过智能技术生成


转眼就到12月份了,但是没想到今年的冬天这么冷,基本取暖靠抖,太冷啦!

于是,赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上。

01 数据采集

数据采集是数据可视化分析的第一步,也是最基础的一步,数据采集的数量和质量越高,后面分析的准确的也就越高,我们来看一下淘宝网的数据该如何爬取。

淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对Selenium进行了反爬限制,所以我们要换种思路来进行数据获取。

打开开发者模式,开始对网页进行观察后发现,淘宝商品的数据竟然在源网页中存储着。
、
我翻了几页网页之后发现,每翻一页,网页的params参数中的s参数就会增加44(初始值是0)。

经过以上分析,现在我们就可以开始构造爬虫程序了。

1. 导入爬虫使用的库

import requests
import re
import time
import random
import openpyxl

2. 发起请求

for page in range(1,101):
   params = (
       ('q', '棉袄'),
       ('imgfile', ''),
       ('commend', 'all'),
       ('ssid', 's5-e'),
       ('search_type', 'item'),
       ('sourceId', 'tb.index'),
       ('spm', 'a21bo.jianhua.201856-taobao-item.2'),
       ('ie', 'utf8'),
       ('initiative_id', 'tbindexz_20170306'),
       ('hintq', '1'),
       ('s', str(page*44)),
   )
response = requests.get(url
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值