我的Python爬虫笔记（二）——动态加载网页

最新推荐文章于 2023-09-14 09:33:46 发布

BlackPenguin

最新推荐文章于 2023-09-14 09:33:46 发布

阅读量828

点赞数

分类专栏：语言

本文链接：https://blog.csdn.net/BlackPenguin/article/details/105060168

版权

这次爬取京东商品搜索页面的商品相关信息，搜索页面先加载前30个商品的信息，后30个信息是后加载出来的。使用BeautifulSoup处理网页的数据。

比如搜索关键词为“书包”，第2页的url是：https://search.jd.com/Search?keyword=%E4%B9%A6%E5%8C%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E4%B9%A6%E5%8C%85&stock=1&page=3&s=52&click=0
注意这里的page是3。京东商品搜索页面每一页有60个商品，其中后30个商品是动态加载出来的。第一页前30个商品的page=1，后30个商品的page=2；第二页前30个商品page=3，第二页后30个商品page=4

F12打开开发者模式，s.new.php?key…是动态加载后30个商品的网页请求，Request URL是其请求网址。
在这里插入图片描述
将请求分为前30个和后30个，parse_page_pre处理前30个商品的请求，parse_page_last处理后30个

import requests
from bs4 import BeautifulSoup
import bs4
import csv


def parse_page_pre(goods_info, i):
    '''
    处理前30个商品的请求，并使用soup处理数据
    :param goods_info: 商品信息列表
    :param i: 京东商品搜索的第i页
    '''
    url_pre = 'https://search.jd.com/Search?keyword=%E4%B9%A6%E5%8C%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&page=' + str(
        2 * i - 1)  # 前30个商品的url
    head = {
   
        'referer': 'https://search.jd.com/Search?keyword=%E4%B9%A6%E5%8C%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E4%B9%A6%E5%8C%85&page=1&s=26&click=0',
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

最低0.47元/天解锁文章

BlackPenguin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
我的Python爬虫笔记（二）——动态加载网页

这次爬取京东商品搜索页面的商品相关信息，搜索页面先加载前30个商品的信息，后30个信息是后加载出来的。比如搜索关键词为“书包”，第2页的url是：https://search.jd.com/Search?keyword=%E4%B9%A6%E5%8C%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E4%B9%A6...
复制链接

扫一扫