使用scrapy抓取静态页面,并保存到csv文件中

直接上代码
中间件代码

SeleniumMiddleware中间件函数

from scrapy import signals
from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
import time

class SeleniumMiddleware(object):
#     使用selenume 请求网页源码
    def __init__(self):
        self.driver = webdriver.Chrome(executable_path=r'D:\selenium\chromedriver_win32 (1)\chromedriver.exe')
    def process_request(self, request, spider):
        # 使用selenium打开请求的网页
        self.driver.get(request.url)
        # 获取网页的源代码
        source = self.driver.page_source
        # 把获取到的源代码返回到响应对象中
        response = HtmlResponse(url=self.driver.current_url
                                , body=source, request=request
                                , encoding='utf-8')
        return response

SeleniumMiddleware

import scrapy
from jd_spider.items import JdS
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值