python 京东 价格_python抓取京东商品价格

本文介绍两种抓取价格的方法1、读取接口获取价格 scrapy等等。。简单2、基于模拟浏览器读取页面抓取selenium 简单京东商品价格目前是基于api接口获取然后通过js进行数值初始化一、基于selenium模拟浏览器进行抓取In [11]: from selenium import webdriverIn [12]: drive = webdriver.PhantomJS()In [13]: ...
摘要由CSDN通过智能技术生成

本文介绍两种抓取价格的方法

1、读取接口获取价格 scrapy等等。。简单

2、基于模拟浏览器读取页面抓取selenium 简单

京东商品价格目前是基于api接口获取然后通过js进行数值初始化

一、基于selenium模拟浏览器进行抓取

In [11]: from selenium import webdriver

In [12]: drive = webdriver.PhantomJS()

In [13]: driver.get("https://item.jd.com/12608054023.html")

In [14]: driver.find_element_by_class_name("price").text

Out[14]: u'119.00'

In [15]: driver.find_element_by_class_name("p-price-plus").text

Out[15]: u'\uffe5109.00'

In [16]: print driver.find_element_by_class_name("p-price-plus").text

¥109.00

In [17]: driver.find_element_by_class_name("p-price").text

Out[17]: u'\uffe5119.00'

In [18]: print driver.find_element_by_class_name("p-price").text

导入到BeautifulSoup处理

from bs4 import BeautifulSoup as bs

pageSo

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫抓取京东商品通常涉及以下几个步骤: 1. **安装必要的库**: 首先,你需要安装一些用于网络请求(如requests)、解析HTML(如BeautifulSoup或 lxml)和处理数据的库,比如`requests`, `bs4` 或者 `html.parser`。 2. **分析网页结构**: 打开京东的商品页面,查看HTML代码,找到包含商品信息的标签元素。这可能包括标题、价格、图片URL、描述等。理解这些信息如何通过JavaScript动态加载是关键,因为很多现代网站会用AJAX技术来更新内容。 3. **发送请求并获取HTML**: 使用`requests.get()`函数发送GET请求到商品详情页,获取返回的HTML源码。如果遇到需要登录或有反爬机制的情况,可能还需要模拟登录或设置User-Agent等头信息。 4. **解析HTML**: 使用BeautifulSoup或其他解析器,解析HTML源码,提取出所需的数据。根据元素的CSS选择器或XPath表达式定位商品信息。 5. **数据存储**: 将抓取到的数据(如字典或列表)保存到本地文件(CSV、JSON、数据库等),或者直接插入到数据库中,以便后续分析和展示。 6. **异常处理**: 爬虫过程中可能会遇到各种问题,如网络中断、服务器响应错误等,需要添加适当的错误处理代码。 7. **遵守网站规则**: 在编写爬虫时,务必遵守京东或其他网站的服务条款,尊重robots.txt协议,并尽量减少对服务器的压力,避免被封IP。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值