使用Selenium爬取动态网页

最新推荐文章于 2024-06-19 14:02:41 发布

daiyu__zz

最新推荐文章于 2024-06-19 14:02:41 发布

阅读量3.2k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/daiyu__zz/article/details/81805556

版权

爬虫专栏收录该内容

26 篇文章 4 订阅

订阅专栏

使用selenium优点：所见既所得

通过page_source属性可以获得网页源代码

selenium可以驱动浏览器完成各种操作，如填充表单、模拟点击等。

获取单个节点的方法：

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partical_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

#另外，selenium还提供了通用方法find_element(),它需要传入两个参数：查找方式By和值

获取多个节点的方法：

find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partical_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

节点交互：

比较常用的方法：
输入文字时使用send_keys()方法，清空文字使用clear（）方法，点击按钮使用click（）方法

执行javascript

对于某些操作，Selenium API并没有提供，比如，下拉进度条，可以直接模拟运行JavaScript，此时使用execute_script（）方法即可实现


from selenium import webdriver

browser = webdriver.Chorme()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

有了这个方法，基本上API没有提供的所有功能都可以执行JavaScript的方式来实现

异常处理（使用try except语句来捕获各种异常）

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print("Time Out")
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

下面给出一个爬取淘宝网的例子

scrapy startproject Taobao
scrapy genspider taobao www.taobao.com

#taobao.py

import scrapy

class TaobaoSpider(scrapy.Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']

    def start_requests(self):
        urls = ['http://www.taobao.com/']
        for url in urls:
            req = scrapy.Request(url,callback='self.parse，meta={"use_selenium":True}')
            yield req

    def parse(self,response):
        print(response.body)

#setting.py
#启用
ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
   'Taobao.middlewares.TaobaoDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
   'Taobao.pipelines.TaobaoPipeline': 300,
}

#middlewares.py
#在中间件中设置selenium访问动态网页
#在``def process_request(self,request,spider)``中添加下列代码

def process_request(self,request,spider):
    #使用两种方法判断是否使用selenium
    #if spider.name == "taobao":    #第一种方法
    if request.meta.get('use_selenium'):
        #设置无界面运行ChromeDriver
        option = Options（）
        option.add_argument('--headless')
        driver = webdriver.Chrome(chrome_options=option)

        #有界面运行ChromeDriver,如使用有界面时，将下面一行代码替换上面三行代码
        #driver = webdriver.Chorme()

        driver.implicitly_wait(15)
        driver.get(request.url)

        #执行js，获取动态页面的整个页面
        js = 'window.scrollTo(0,document.body.scrollHeight)'
        driver.execute_script(js)
        content = driver.page_source

        resp = HtmlResponse(request.url,request=request,body=content)
        return resp  #被解析函数parse接收
    return None

daiyu__zz

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
使用Selenium爬取动态网页

使用selenium优点：所见既所得通过page_source属性可以获得网页源代码selenium可以驱动浏览器完成各种操作，如填充表单、模拟点击等。获取单个节点的方法：find_element_by_idfind_element_by_namefind_element_by_xpathfind_element_by_link_textfind_element_by_pa...
复制链接

扫一扫

专栏目录