scrapy过滤html标签,基于scrapy框架的请求过滤问题

最新推荐文章于 2021-06-09 18:40:08 发布

布尔布热

最新推荐文章于 2021-06-09 18:40:08 发布

阅读量353

点赞数

文章标签： Scrapy 请求过滤 dont_filter 爬虫中断链接提取

最近被scrapy的dont_filter困扰，因为写的程序经常因为request被过滤掉而中断。

自认为还是不了解scrapy的运行机制造成的。

如下代码：

from scrapy.spiders import Spider

from scrapy.selector import Selector

from scrapy.linkextractors import LinkExtractor

from scrapy import Request

from example.items import xxxxItem

import re

class xxxxSpider(Spider):

name = "example"

allowed_domains = ["xxxx.com.cn"]

pat = 'http://finance.xxxx.com.cn/.*[0-9]{4}-[0-9]{2}-[0-9]{2}/[a-z]*-[a-z0-9]*.*'

def start_requests(self):

yield Request(url="http://finance.xxxx.com.cn/", callback=self.parse)

def parse(self, response):

if response.status == 200:

URLgroup = LinkExtractor(allow=()).extract_links(response)

for URL in URLgroup:

key = re.findall(self.pat, URL.url)

if key:

#only crawl url with a fixed prefix

yield Request(url=URL.url, callback=self.parse_content)

def parse_content(self, response):

if response.status == 200:

content = Selector(response)

text = content.xpath("/html/body//div[@id='artibody']//p/descendant::text()").extract()

if text and title:

item = xxxxItem()

Text = ''

for text_one in text:

Text += text_one

item["text"] = Text

yield item

yield Request(url=response.url, callback=self.parse, dont_filter=True)

在最后一行的request中将dont_filter设置为True,将不会导致爬虫中途停止，因为访问这个网页的request不会被filtered，进而继续爬取。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

布尔布热

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

61万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

html去掉抓取的字符串,爬虫清洗去除html的tags

weixin_35242442的博客

05-31

467

在抓取一些数据的时候，获取到的字符串是这样的：文章标题2432文章内容这种情况如果写正则匹配的话，太浪费时间了。有一个现成的工具可用那就是w3lib。w3lib 是scrapy的基础插件,用来处理html，相当好用，以下是例子：from w3lib.html import remove_tagss = '文章标题2432文章内容's1 = remove_tags(s)print(s1)>&g...

参与评论您还未登录，请先登录后发表或查看评论

scrapy过滤html标签,如何在缺少html标记时使用scrapy提取标签值列表

weixin_32023449的博客

06-09

166

编辑：抱歉，我使用lxml，但它对Scrapy自己的选择器也一样。对于您提供的特定HTML，这将起作用：>>> s = """ label1 ... value1 ... label2 ... value2 ... """>>>>>> import lxml.html>>> lxml.html.fromstring(s)&g...

scrapy删除html标签

风流倜傥唐伯虎的博客

10-06

854

使用re和w3lib模块 import re from w3lib.html import remove_tags # scrapy移除内容中多余的html标签 @classmethod def go_remove_tag(cls, value): # 移除html标签 value = remove_tags(value) # 移除空格换行 return re.sub(r'[\t\r\n\s]', '', value

记一次使用scrapy过程中遇到的问题之过滤问题

mr~li的博客

04-17

721

我们都知道，scrapy的默认过滤机制是过滤已经请求过的url地址，就是说如果某个url地址在发起新的请求前已经请求过了，那么scrapy默认会给我们过滤掉本次请求，如果想改变这种默认机制也是可以的，在发请求的时候假如参数dont_filter=True，这个值默认是False的，所以才会过滤掉已经请求过的地址，至于过滤的原理是基于什么，这里不做详细介绍，有兴趣的可以看下scrapy的源码介绍，是...

Python 通过爬虫获取网页内容时去掉某一标签内容

weixin_44606217的博客

08-12

5555

基于分布式爬虫框架scrapy+elasticsearch+django完成搜索引擎网站

热门推荐

陈小峰（iefreer）的专栏

03-08

1万+

比如要获取所有class=test的div元素，1. 用Scrapy，示范代码： def parse(self, response): hxs = Selector(response) items = [] divs = hxs.xpath('//div[@class="test"]')2. 用lxml，示范代码：from lxml impo

scrapy框架中的Xpath语法以及去掉所有标签的方法

之度的博客

03-29

3938

参考网站https://www.w3school.com.cn/xpath/xpath_syntax.asp 表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。实例 ...

HTML网页使用python提取正文，文字，过滤掉标签，空行，空格等

静姐姐的专栏

04-22

6497

##过滤HTML中的标签 #将HTML中标签等信息去掉 #@param htmlstr HTML字符串. def filter_tags(htmlstr): #先过滤CDATA re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA re_script=re.compile(']*>[^',re.I)#Script re_s

scrapy框架提取标签内文本的几种方法

weixin_42657078的博客

08-05

7909

我们都知道，Scrapy框架是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。在我们使用scrapy框架进行爬虫的时候，通常会遇到如下问题：文字提取不够准确，文字提取的同事提取出了多余的符号等，那么，为了使我们提出的数据更加准确、美观，在这篇博客中，我将为大家详细介绍一下...

scrapy提取不在标签内文字

AI蜗牛之家

10-12

2319

response.xpath(u’//span[./text()=”出版社:”]/following::text()[1]’)如果text() 中有空格, 感谢 @董成良提醒, 你可能还需要这么写response.xpath(u’//span[contains(./text(), “出版社:”)]/following::text()[1]’)或者全匹配:response.xpath(u’//sp

xpath提取多个标签下的text

weixin_30737433的博客

01-17

912

xpath提取多个标签下的text title: xpath提取多个标签下的text author: 青南 date: 2015-01-17 16:01:07 categories: [Python] tags: [xpath,Python,xml,scrapy] --- 本文首发在http://kingname.info 在写爬虫的时候，经常...

爬虫系列3：scrapy技术进阶（xpath、rules、shell等）

JackFeng's Blog

06-08

1万+

本文主要介绍与scrapy应用紧密相关的关键技术，不求很深入，但求能够提取要点。内容包括： 1、xpath选择器：选择页面中想要的内容 2、rules规则：定义爬虫要爬取的域 3、scrapy shell调试：辅助调试工具 4、去重设置：内置的防止重复爬取的工具 5、防屏蔽：通过设置爬取时间间隔防屏蔽

Python爬虫进阶：深度解析Scrapy框架

作者分享的GitHub代码仓库可以作为动手实践的参考，帮助读者更好地理解和应用Scrapy框架。不过，深入学习Scrapy，还需要进一步了解其高级特性和最佳实践，例如分布式爬虫、反反爬策略、异常处理等。