Scrapy爬虫
文章平均质量分 86
木尧大兄弟
自然语言处理/大语言模型/深度学习/机器学习/AIGC/编曲混音
展开
-
m1 mac 安装和使用 homebrew 解决 scrapy 运行时OpenSSL的问题
背景最近需要在 m1 mac 上用 scrapy 爬点数据,用 miniconda 装了个虚拟环境后,运行 scrapy shell 测试 https 请求时,报错如下:builtins.MemoryError: Cannot allocate write+execute memory for ffi.callback(). You might be running on a system that prevents this. For more information, see https://cf原创 2022-04-03 14:06:27 · 2477 阅读 · 4 评论 -
【解决方案】scrapy报错KeyError: ‘Spider not found‘
检查命令行里的spider名字和class中一致,且spiders目录也有__init__.py,然而还是报错,于是经过一番探究...发现该spider里有个name变量...应该是和内置的name变量冲突了 改个名即可原创 2020-07-25 16:02:14 · 5560 阅读 · 0 评论 -
Scrapy中出现UnicodeDecodeError:检查scrapy.cfg是否含中文
检查了一番 原来是scrapy.cfg写了个中文删掉中文后发现就好了...原创 2020-07-22 21:57:07 · 226 阅读 · 0 评论 -
selenium+Firefox爬虫下载pdf弹出下载框的终极方案
如题,网上全是用以下方案:fp = webdriver.FirefoxProfile()fp.set_preference("browser.download.folderList", 2) # 0桌面,1默认下载路径,2自定义路径。设置0和1的时候,第三个设置自定义路径的就要去掉fp.set_preference('browser.download.dir', 'pdf')fp.set_preference("browser.download.manager.showWhenStarting原创 2020-06-11 09:34:37 · 1120 阅读 · 1 评论 -
Scrapy爬虫之下载器中间件(反爬:随机请求头、IP代理池)
一、下载器中间件配置随机请求头下载器中间件实现两个方法:process_request和process_response能获取当前浏览器请求头的网站:http://httpbin.org/user-agent全世界所有浏览器的请求头:http://www.useragentstring.com/pages/useragentstring.php?typ=Browser...原创 2020-04-30 15:34:22 · 581 阅读 · 1 评论 -
Scrapy爬虫之scrapy shell、Request和Response对象
进入爬虫项目内,执行scrapy shell 网址(不进入爬虫项目也不影响,不过不能获取项目的settings配置)测试一下response.xpath原创 2020-04-29 21:15:56 · 414 阅读 · 0 评论 -
scrapy爬虫之原理和简单实战
安装scrapypip install scrapycmd执行scrapy和scrapy bench验证安装原理engine是引擎,核心大脑spiders写爬虫逻辑,提取数据(item)或者请求,请求交给调度器,数据交给管道scheduler是调度器(网址的优先队列,可以去重)downloader是下载网页用的item pipelines用来处理爬下来的item、保存持久化数据a...原创 2020-04-28 18:52:04 · 287 阅读 · 0 评论 -
Scrapy爬虫之pipelines与导出为json文件
spider把数据封装成dict扔出来# -*- coding: utf-8 -*-import scrapy# 创建爬虫类,继承自scrapy.Spider --> 爬虫最基础的类,basic crawl csvfeed xmlfeed都继承自这个类class XicidailiSpider(scrapy.Spider): name = 'xicidaili' # ...原创 2020-04-29 16:13:10 · 888 阅读 · 0 评论 -
Scrapy爬虫之items
之前使用dict把spider中数据传到piplines,显得不专业,于是用items(类似Django先定义好数据字段)首先,items.py定义字段import scrapyclass XicispiderItem(scrapy.Item): # 存数据模型的,有点像django定义数据库 # define the fields for your item her...原创 2020-04-29 16:27:38 · 2398 阅读 · 0 评论 -
Scrapy爬虫之CrawlSpider(继承自CrawlSpider类 可自动嗅到链接)
创建项目后通过以下命令创建爬虫类:scrapy genspider -t crawl wxapp-union wxapp-union.com爬虫继承自CrawlSpider类,和base类区别就是多了rules和LinkExtractor。【tips】开启pipelines后需要在settings.py中解开注释(设置pipline优先级的那个)from scrapy.linke...原创 2020-04-29 20:56:02 · 414 阅读 · 0 评论