最近因需求需要,需要到京东爬取一些类别的商品信息。记录下过程中踩过的坑,最后奉献上全部代码。仅供互相学习,如有错误请指正~~京东网页翻页。
京东的页面是打开时先加载前30个商品,浏览到下面时再加载另30个商品。加载前30个商品时 page=1,后30个商品时 page=2。所以京东的翻页可以用request库直接 page+1翻页,也可以使用selenium库滚轮操作到最后全部加载完成后以page = 2n-1的方式翻页。
获取商品详情页的价格及评论
从以上代码获取到商品详情页的网页后,继续对详情url发起请求后发现请求不到商品价格及评论。最后用青花瓷抓包后发现这2个是单独的JS加载,返回的是两个json包。可以通过解析json获取价格和评论。
全部代码如下:
from bs4 import BeautifulSoup
import requests as re
import random,json
from selenium import webdriver
from time import sleep
from urllib.parse import quote
import pandas as pd
def Get_Header(re_url):
list_header = [
{
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'cache-control':'max-age=0',
'Cookie':'__jda=122270672.1744496012.1577155345.1598497068.1598508599.11; __jdu=1744496012; shshshfp=075cb5bfc884ea12ffa496ed64bd02f9; shshshfpa=c831f236-6ab3-aa6d-14d2-b2ef1c6bd04e-1588213838; shshshfpb=bF5VGKKJpLPVkXI1nPyFvHQ%3D%3D; unpl=V2_ZzNtbUEESxB1CRJRLklZB2JREV4RUkUcJQARVikYWQ1uAxZfclRCFnQUR11nGloUZwIZWURcRhJFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHsfWQBiCxVcQlRzJXI4dmR5H1kDZAsiXHJWc1chVE9SfR5ZAyoDFFhHUksSdAhFZHopXw%3d%3d; __jdv=76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_2b9410e4da434c22b478a9f3c0498153|1598497067783; areaId=18; ipLoc-djd=18-1482-48942-49058; PCSYCityID=CN_430000_430100_0; _pst=%E6%9E%AB%E5%8F%B68%E7%96%AF%E8%80%B6

本文介绍了如何使用Python爬虫从京东网站抓取商品价格和评论信息,涉及请求、BeautifulSoup和JSON解析等技术。通过滚动加载和模拟点击,实现了对商品详情页的翻页和信息提取。
最低0.47元/天 解锁文章
5777

被折叠的 条评论
为什么被折叠?



