Python Scrapy如何使用XPath获取:节点值/innerHTML

最近学习研究Scrapy,刚好遇到爬取文章正文内容,总是搞不定innerHTML 方法

找了很多,都是你抄我,我抄你的,也没有一个人验证的,最终只能自己实践,最终实现了获取节点下辖内容,记录一下,说不定以后要用的:

原始内容,只需要红色部分:

....<div class="content"><img src="1-120F3103553G9.jpg" style="width: 600px; height: 450px;"><br>
关键词:中国古城PPT背景模板,古城PPT背景素材,黄色PPT背景
</div>......

实现代码,主要是用 node() ,获取所有节点及文本,网上告诉的方法都是 text() 纯文本:

item["content"] = "".join(response.xpath("//div[@class='content']/node()").extract()).strip()

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
以下是一个可能的 scrapy 爬虫示例,用于获取 dbpedia.org 上与 XML 相关的词条: ```python import scrapy class DbpediaSpider(scrapy.Spider): name = "dbpedia" start_urls = [ 'https://dbpedia.org/page/XML' ] def parse(self, response): # 提取标题和描述 title = response.css('h1::text').get() description = response.css('div.abstract::text').get() # 打印结果 print('Title:', title) print('Description:', description) # 获取所有链接,并对每个链接执行递归爬取 for link in response.css('a::attr(href)').getall(): if 'https://dbpedia.org/page/XML' in link: yield scrapy.Request(response.urljoin(link), callback=self.parse) ``` 在上述代码中,我们首先定义了一个名为 `DbpediaSpider` 的 scrapy 爬虫,并指定了起始 URL。然后,在 `parse` 方法中,我们首先提取了当前页面的标题和描述,然后打印出来。接着,我们使用 CSS 选择器获取了所有链接,并对每个链接执行递归爬取。注意,我们只递归爬取了那些链接中包含了 `https://dbpedia.org/page/XML` 的页面,以避免爬取到无关的页面。最后,我们使用 `response.urljoin()` 方法将相对链接转换为绝对链接,以便进行递归爬取。 请注意,上述代码仅供参考,并可能需要根据实际情况进行适当的修改。此外,由于 dbpedia.org 是一个公共网站,为了避免对其造成过大的负担,请确保您的爬虫代码遵守网站的爬虫策略,并且不要频繁地发送请求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锐昆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值