python爬取京东商品价格教科书中文版_Python爬虫,京东商品详情爬取!

本文介绍了如何使用Python爬虫从京东网站抓取商品价格和评论信息,涉及请求、BeautifulSoup和JSON解析等技术。通过滚动加载和模拟点击,实现了对商品详情页的翻页和信息提取。

最近因需求需要,需要到京东爬取一些类别的商品信息。记录下过程中踩过的坑,最后奉献上全部代码。仅供互相学习,如有错误请指正~~京东网页翻页。

京东的页面是打开时先加载前30个商品,浏览到下面时再加载另30个商品。加载前30个商品时 page=1,后30个商品时 page=2。所以京东的翻页可以用request库直接 page+1翻页,也可以使用selenium库滚轮操作到最后全部加载完成后以page = 2n-1的方式翻页。

获取商品详情页的价格及评论

从以上代码获取到商品详情页的网页后,继续对详情url发起请求后发现请求不到商品价格及评论。最后用青花瓷抓包后发现这2个是单独的JS加载,返回的是两个json包。可以通过解析json获取价格和评论。

全部代码如下:

from bs4 import BeautifulSoup

import requests as re

import random,json

from selenium import webdriver

from time import sleep

from urllib.parse import quote

import pandas as pd

def Get_Header(re_url):

list_header = [

{

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'cache-control':'max-age=0',

'Cookie':'__jda=122270672.1744496012.1577155345.1598497068.1598508599.11; __jdu=1744496012; shshshfp=075cb5bfc884ea12ffa496ed64bd02f9; shshshfpa=c831f236-6ab3-aa6d-14d2-b2ef1c6bd04e-1588213838; shshshfpb=bF5VGKKJpLPVkXI1nPyFvHQ%3D%3D; unpl=V2_ZzNtbUEESxB1CRJRLklZB2JREV4RUkUcJQARVikYWQ1uAxZfclRCFnQUR11nGloUZwIZWURcRhJFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHsfWQBiCxVcQlRzJXI4dmR5H1kDZAsiXHJWc1chVE9SfR5ZAyoDFFhHUksSdAhFZHopXw%3d%3d; __jdv=76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_2b9410e4da434c22b478a9f3c0498153|1598497067783; areaId=18; ipLoc-djd=18-1482-48942-49058; PCSYCityID=CN_430000_430100_0; _pst=%E6%9E%AB%E5%8F%B68%E7%96%AF%E8%80%B6

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值