本文结构:
一、引言
二、代码分享
三、问题总结
引言
这两天因为一些需求,研究了一下如何爬取京东商品数据。最开始还是常规地使用selenium库进行商品页的商品抓取,后来因为想要获取优惠信息,只能进入到商品详情页进行抓取,想着用selenium库模拟浏览器行为进行页面抓取速度有点慢,就改用了requests库直接发送请求,然后问题就来了:明明在页面看到了优惠满减字段,抓取的结果却是空白的。
百度研究了一番,总算找到了原因。最后因为商品抓取量不大,所以还是乖乖的使用了selenium库进行爬虫。
代码分享
爬虫代码如下:
# -*- coding: utf-8 -*-
"""
爬取京东商品排行榜商品信息
"""
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import re
import time
##京东排行榜地址:https://top.jd.com/
writer=pd.ExcelWriter(r"D:\python学习\京东排行榜商品.xlsx")##数据写入的文件
##使用selenium模拟浏览器登陆
#需要下载安装chromedriver
driver = we