python 访问网页重定向_Python数据网络采集5--处理Javascript和重定向

最新推荐文章于 2024-07-10 08:43:38 发布

weixin_39788792

最新推荐文章于 2024-07-10 08:43:38 发布

阅读量281

点赞数

文章标签： python 访问网页重定向

本文链接：https://blog.csdn.net/weixin_39788792/article/details/114402641

版权

本文介绍了Python网络采集时如何处理Ajax和重定向的问题。通过Selenium库，我们可以模拟浏览器执行JavaScript，从而获取动态加载的内容。示例展示了如何等待页面加载完成以及如何检测重定向。在处理重定向时，利用Selenium监视DOM元素的变化，当元素发生变化时，说明已发生重定向。

摘要由CSDN通过智能技术生成

Python数据网络采集5--处理Javascript和重定向

到目前为止，我们和网站服务器通信的唯一方式，就是发出HTTP请求获取页面。有些网页，我们不需要单独请求，就可以和网络服务器交互(收发信息)，那么这个网页可能采用了Ajax技术来加载数据。使用以前的采集方法，可能只能采集到加载之前的数据，重要的数据就抓不到了。

和Ajax一样，动态HTML(DHTML)也是一系列用于解决网络问题的技术集合。DHTML用客户端语言，如JavaScript控制页面的HTML元素。经常，在我们采集网站时，从浏览器中看到的内容，和爬取到的内容就是不一样。或者网页用一个加载页把我们引到另外一个页面上，但是URL链接在这个过程中却一直没有变化。

这些都是因为网页中的JavaScript在作怪。浏览器可以正确执行JavaScript，但是我们在爬取过程中，也许直接就忽视了这些代码。所以导致浏览器中看到的和爬取到的内容不一样。

Ajax/DHTML技术给爬虫带来了困难，不过可以使用Selenium可以方便处理页面中的JavaScript代码。

来看个例子, 下面访问的网页使用了Ajax技术加载，大概2秒左右页面内容会改变(但是地址栏的URL链接没有改变)。

import requests

from bs4 import BeautifulSoup

url = 'http://pythonscraping.com/pages/javascript/ajaxDemo.html'

r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

content = soup.find('div', id='content')

print(content.string)

This is some content that will appear on the page while it's loading. You don't care about scraping this.

Selenium处理JavaScript

实际上，如果在浏览器打开这个页面，最后显示的内容不是这样的。刚开始是会显示这些内容，不过马上就被新的内容取代了。可以试试等待个几秒。上面的例子中使用requests访问，是立即返回了响应的，所以只能获取到加载前的内容。所以若是要等待，requests好像就没那么好使了。上Selenium吧！

import time

from selenium import webdriver

driver = webdriver.PhantomJS(executable_path=r'C:\Program Files (x86)\phantomjs\bin\phantomjs.exe')

driver.get('http://pythonscraping.com/pages/javascript/ajaxDemo.html')

# 等待加载完成

time.sleep(5)

content = driver.find_element_by_id('content').text

print(content)

driver.quit()

Here is some important text you want to retrieve!

A button to click!

上面使用到了PhantomJs，就是一个没有界面的浏览器，和Selenium结合使用十分方便。PhantomJs需要下载。

WebElement有个属性text可以获得标签内的文本。看上面的打印信息，确实新的内容加载出来了。在使用时，需要指定phantomjs所在的目录。而且，因为没有界面，在使用完后记得close或者quit。

上面的代码限制了5秒后查找元素，但是页面到底什么时候加载好是不能确定的。所以可以不断检测页面某个内容是否已经加载完毕。

from selenium import webdriver

from selenium.webdriver.support.wait import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

driver = webdriver.PhantomJS(executable_path=r'C:\Program Files (x86)\phantomjs\bin\phantomjs.exe')

driver.get('http://pythonscraping.com/pages/javascript/ajaxDemo.html')

try:

element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'loadedButton')))

print(element)

finally:

print(driver.find_element_by_id('content').text)

driver.close()

Here is some important text you want to retrieve!

A button to click!

这里使用了WebDriverWait和expected_conditions来构成隐式等待。隐式等待就是等DOM中某个状态发生后再继续运行代码，没有明确的等待时间，但是有最大等待时限(上例中时10s)，而显式等待就是指定了等待时间的，如前面有个例子指定了sleep(5)。expected_conditions指定了期望的条件，上面的例子是一直等待，直到id为loadedButton的元素显示出来。By是选择器，可以按照下面的方式查找。

ID = "id"

XPATH = "xpath"

LINK_TEXT = "link text"

PARTIAL_LINK_TEXT = "partial link text"

NAME = "name"

TAG_NAME = "tag name"

CLASS_NAME = "class name"

CSS_SELECTOR = "css selector"

其实下面两句的意思是一样的：

driver.find_element(By.ID, 'loadedButton')

driver.find_element_by_id('loadedButton')

Xpath语法

还能使用Xpath的语法进行查找。下面列举一些常用的语法。

/div 选择根节点是div的元素

//a 选择文档中的所有a节点(包括非根节点)

//@href 选择带有href属性的所有节点

//a[@href='https://www.google.com'] 选择所有具有href为google网站的a标签

//a[3] 选择文档中第3个a标签

//table[last()] 选择文档中最后一个table

//a[position() < 3] 选择文档中的前三个a标签

处理重定向

重定向分为客户端重定向(Redirect)和服务端重定向(Dispatch)，后者意思为派遣，就是常说的转发。转发只请求了一次，所以Python的requests能轻松处理，但是重定向的话，请求了两次，url一般会变化。这时候需要使用Selenium了。下面的例子可以监视链接是否已经重定向了，使用的方法是，首先从页面开始加载的时候就监视DOM中的某一个元素，然后重复查找这个元素，检查它和原来的元素是不是同一个，直到抛出StaleElementReferenceException，就是说元素已经不在页面的DOM里了，此时已经跳转。

import time

# Stale means the element no longer appears on the DOM of the page

from selenium.common.exceptions import StaleElementReferenceException

from selenium import webdriver

def wait_for_load(a_driver):

element = a_driver.find_element_by_tag_name('html')

print('content', element)

count = 0

while True:

count += 1

# 超过10s，直接返回

if count > 20: