Python网络爬虫-使用Selenium爬取京东商品_使用selenium获取tpshop开源商城商品价格-CSDN博客

本文链接：https://blog.csdn.net/u013963380/article/details/98456687

本文介绍了如何使用Python的Selenium库模拟浏览器行为，爬取京东商城中商品的名称、价格、评论和店铺名称。通过分析网页，设置基础URL，输入搜索关键词，模拟点击搜索和翻页，解析动态加载的页面源码，最后将数据写入文件保存。

摘要由CSDN通过智能技术生成

Python网络爬虫-模拟Ajax请求抓取微博中我们了解了Ajax的分析和抓取的方式，但是有很多的网站即使是Ajax来获取的数据，但是其Ajax接口含有很多加密参数，我们很难找出其中的规律，也就很难直接使用Ajax来抓取。

为了解决这些问题，我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就是可见即可爬。这样我们就不用再去管网页内部的JavaScript用了什么算法渲染页面，不用管网页后台的Ajax接口到底有哪些参数。

Python提供了许多模拟浏览器运行的库，如Selenium、Splash等。

Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些JavaSript动态渲染的页面来说，此种抓取方式非常有效。

下面使用Selenium来模拟浏览器操作爬取京东商城的商品信息。

1.目标

使用Selenium爬取京东商城商品信息并使用xpath解析得到商品的名称、价格、评论和店铺名称并将其写入文件保存。

2.准备工作

3.网页分析

人工输入京东的网址https://www.jd.com/，然后在搜索框中输入ipad点击确认，往下拉到网页底部，页面上共加载出60个有关ipad关键字的商品信息，并且在页面底部有一个分页的导航，其中既包括了前7页的链接，页包括了下一页的链接。

4.爬取流程

5.使用selenium模拟爬取流程中的12流程

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By