scrapy html文件不完整,Scrapy请求不会生成完整的HTML,但请求库会生成

我在建一个爬行蜘蛛从以下网站(https://www.azleg.gov/viewdocument/?docName=https://www.azleg.gov/ars/1/00101.htm)中搜集成文法数据。我的目标是提取法规文本,它包含在以下XPath[/div[@class='first']/p/text()]中。该路径应提供法规文本。你知道吗

我的所有scrapy请求都会产生不完整的html响应,因此当我搜索相关的xpath查询时,它会产生一个空列表。但是,当我使用请求库时,html会正确下载。你知道吗

使用XPathTesterOnline,我已经验证了我的XPath查询应该产生所需的内容。使用ScrapyShell,我在浏览器中查看了scrapy的响应对象—它看起来就像我本机浏览时一样。我尝试过为BeautifulSoup和Selenium启用中间件,但似乎都不起作用。你知道吗

这是我的爬行蜘蛛class AZspider(CrawlSpider):

name = "arizona"

start_urls = [

"https://www.azleg.gov/viewdocument/?docName=https://www.azleg.gov/ars/1/00101.htm",

]

rule = (Rule(LinkExtractor(restrict_xpaths="//div[@class = 'article']"), callback="parse_stats_az", follow=True),)

def parse_stats_az(self, response):

statutes = response.xpath("//div[@class = 'first']/p")

yield{

"statutes":statutes

}

下面是成功生成正确响应对象的代码az_leg = requests.get("https://www.azleg.gov/viewdocument/?docName=https://www.azleg.gov/ars/1/00101.htm")

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值