使用scrapy抓取静态页面，并保存到csv文件中

最新推荐文章于 2023-06-25 22:09:22 发布

置顶

研客9527

最新推荐文章于 2023-06-25 22:09:22 发布

阅读量2.1k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/cxl234/article/details/88945422

版权

本文介绍了如何使用Scrapy爬虫框架配合Selenium库抓取静态网页内容。通过自定义SeleniumMiddleware中间件和Pipeline，实现了动态加载页面的抓取，并将数据保存到CSV文件中，方便进一步分析处理。

摘要由CSDN通过智能技术生成

直接上代码
中间件代码

SeleniumMiddleware中间件函数

from scrapy import signals
from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
import time

class SeleniumMiddleware(object):
#     使用selenume 请求网页源码
    def __init__(self):
        self.driver = webdriver.Chrome(executable_path=r'D:\selenium\chromedriver_win32 (1)\chromedriver.exe')
    def process_request(self, request, spider):
        # 使用selenium打开请求的网页
        self.driver.get(request.url)
        # 获取网页的源代码
        source = self.driver.page_source
        # 把获取到的源代码返回到响应对象中
        response = HtmlResponse(url=self.driver.current_url
                                , body=source, request=request
                                , encoding='utf-8')
        return response

SeleniumMiddleware

import scrapy
from jd_spider.items import JdS

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

研客9527

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用Scrapy和Selenium爬取动态数据

爱吃雪糕的小布丁的博客

06-23

1万+

文章参考千锋教育大佬的课程： https://www.bilibili.com/video/BV1QY411F7Vt?p=1&vd_source=5f425e0074a7f92921f53ab87712357b ，多谢大佬的课程因为Taobao网的搜索功能需要登录之后才能使用，所以我们要通过程序去控制浏览器实现登录功能，然后再获取登录之后的Cookie. 首先创建一个Chrome浏览器对象，用这个对象去操控谷歌浏览器：接着就可以通过这个对象去操作浏览器登录Taobao网，并且把Cookie存进

手把手教你使用 Python 抓取并存储网页数据！最详细的爬虫教程！

爬遍所有网站

10-22

1926

爬虫是 Python 的一个重要的应用，使用 Python 爬虫我们可以轻松的从互联网中抓取我们想要的数据本文将基于爬取 B 站视频热搜榜单数据并存储为例，详细介绍 Python 爬虫的基本流程。 PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文！第一步：尝试请求首先进入 b 站首页，点击排行榜并复制链接 https://www.bili..

参与评论您还未登录，请先登录后发表或查看评论

Scrapy爬取网页并保存到数据库中

马立弘

11-07

4217

Scrapy爬取网页并保存到数据库中一.新建一个Scrapy工程。进入一个你想用来保存代码的文件夹，然后执行： T:\>scrapy startproject fjsen 会生成一堆文件夹和文件： scrapy.cfg: 项目配置文件 tutorial/: 项目python模块, 呆会代码将从这里导入 tutorial/items.py: 项目items文件 tutorial/pipelines.

Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)

weixin_30451709的博客

02-24

881

1. Scrapy框架　　Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。 2. Scrapy安装 1. 安装依赖包 yum install gcc libffi-devel python-devel openssl-devel -y yum install libxslt-devel -y 2. 安装scrap...

Scarpy爬取静态网页信息

sgsdsdd的博客

10-28

299

Scarpy爬取静态网页信息文章目录Scarpy爬取静态网页信息一、案例说明二、Scarpy操作三、代码四、存储为csv文件一、案例说明用Scarpy爬取湖北经济学院经院要闻新闻的标题、网址，http://news.hbue.edu.cn/jyyw/list.htm。需注意：动态网页的源代码，被浏览器加工后，可能与源代码不同。二、Scarpy操作（1）在电脑开始菜单中，搜索cmd并打开（2）在cmd中，切换到写scrapy文件的位置。例如我要写到我的e盘python文件夹中。所以先输入e：进入

Python3.6+Scrapy爬取知乎用户数据，保存到MongoDB和CSV文件

王俊的博客

12-03

1224

最近写了一个爬虫，爬取知乎用户数据，将爬取的数据保存在一个csv文件和MongoDB数据库。经测试可以一次性爬取数万条数据，而不被ban掉。代码见：https://github.com/wangjun1996/zhihuUser_spider （运行项目中 zhihuUser/main.py 即可开始爬虫）爬虫目标爬虫要实现的内容有： 1.从一个大V用户开始，通过递...

基于Python的Scrapy静态网页爬取

Zeva的博客

07-10

1127

用Scrapy爬取网页 1.创建工程 2.我们的第一个爬虫 3.如何运行我们的爬虫 4.幕后发生了什么 5.start_requests方法的捷径 6.提取数据 7.XPath简介 8.提取引用和作者 9.从我们的爬虫中提取数据 10.存储爬取的数据假设你的电脑上已经安装了Scrapy。这篇教程将会带你学习以下任务：新建一个Scrapy工程编写一个爬虫爬取一个网站并提取数据使用命令...

数据采集实验-爬取李开复博客并保存在csv和mongodb中

sjdgkgh的博客

11-04

1091

文章目录实验目的实验要求实验程序及运行结果实验内容概述代码解说翻页：通过回调函数实现翻页。显示页数：利用response.xpath获得当前页数。爬取目录页：标题、时间、链接。爬取动态数据：阅读数，喜欢数，评论数，转发数，收藏数。爬取详情页：标题,时间,分类,标签。处理时间和标题数据：def chuli(item)。数据存入csv和mongodb：不同item存入不同文件、表。绘制进度条：利用sys绘制（伪）进度条。运行结果：控制台csv文件mongodb数据库实验总结实验中遇到的部分错误与解决方法：py.

python scrapy框架项目1-爬取静态网页

aha_liu的博客

07-18

1247

几天前初次接触python爬虫，从静态网页开始练习最后爬取优酷世界杯的相关评论并做出相关分析，在此记录一下首先需要使用pip安装scrapy框架，安装过程不再赘述，其中可能会遇到一些需要c++类库的报错，在网上下载安装这些类库，重新安装即可。第一个项目：爬取静态网站这里选择了凤凰网的即时新闻http://2018.ifeng.com/listpage/111171/3/1/590535...

使用python的scrapy模块爬取文本保存到txt文件

12-23

使用python的scrapy爬取文本保存为txt文件编码工具 Visual Studio Code 实现步骤 1.创建scrapyTest项目在vscode中新建终端并依次输入下列代码： scrapy startproject scrapyTest cd scrapyTest code 打开项目scrapyTest（vscode自动生成下列文件） 2.源代码 pipelines.py class ScrapytestPipeline(object): def open_spider(self,spider): #创建my.txt文件，并将字符集设为utf

scrapy实例爬取网站

07-20

使用Scrapy框架爬取网站，并将数据按照表格形式保存为csv格式

scrapy----将数据保存为json文件

qq_38661599的博客

07-06

4927

方法一:通过在cmd中输命令来实现scrapy crawl novel -o novel.json -s FEED_EXPORT_ENCIDING=UTF-8job为爬虫名称(name)scrapy将数据保存为csv文件: scrapy crawl novel -o novel.csv -s FEED_EXPORT_ENCIDING=UTF-8方法二:通过pipelines实现1.自定义自己的pi...

scrapy 保存html页面,Scrapy：创建爬行索引页并保存每个相应Lin的整个HTML页面的Spider...

weixin_42499444的博客

06-05

543

我是Scrapy的新手，正在尝试探索它的一些功能。我希望能够成功地创建一个scraper，它可以抓取页面上的一组链接(比如索引页面)，并将整个页面保存为每个对应链接的HTML页面。(逻辑是我可以在以后离线阅读内容，或者在我开始使用Scrapy更高级的功能后创建一个调度程序)然而，我似乎被困在这个练习上。我有一种感觉，我循环的方式是错误的——无论是for循环、回调还是返回函数。在我的蜘蛛网.py代码...

scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html

weixin_34313368的博客

06-05

1064

使用splash抓取js动态加载的网页，输出网页源代码，以html的格式保存到本地，然后编写个py文件抓取自己想要的信息，又希望自己的抓取方式能够复用到scrapy-splash爬虫项目项目中。可以使用下面的方式抓取本地的html文件：# -*- coding: utf-8 -*-# @AuThor : frank_leefrom scrapy.selector import Selectorh...

Scrapy爬图片入门——静态网站

ahc176的博客

09-13

778

一、要爬的网站：二、建个项目： scrapy startproject demo scrapy genspider image 三、

学了那么久Python还什么都做不了，我觉得你该试试这个方法了