关于Scrapy的使用,我已经写过很多篇博客了:
Python爬虫框架Scrapy的基本使用方法(以爬取加密货币GitHub链接为例)_蛐蛐蛐的博客-CSDN博客
使用Python爬虫框架Scrapy爬取Android Vulnerability Bulletin(安卓系统漏洞公告)基本方法_蛐蛐蛐的博客-CSDN博客
使用Python爬虫框架Scrapy爬取CVE Details中的CVSS_蛐蛐蛐的博客-CSDN博客
不过遇到新的需求的时候,还是想记录一下。不过因为只是简单记录,所以这篇博客很水。例如我想爬取这个网页中: NVD - CVE-2022-20220
这个漏洞的CWE的属性值,应该怎么匹配呢,还是看看源码:
<tr data-testid="vuln-CWEs-row-0">
<td data-testid="vuln-CWEs-link-0">
<a href="http://cwe.mitre.org/data/definitions/22.html" target="_blank">CWE-22</a>
所以匹配这个实际上也很简单,我直接给出Xpath的结果,一看便知:
for each in response.xpath('//tr/td/a[starts-with(@href,"http://cwe.mitre.org/data/definitions")]/text()'):
就简单总结这么多,应该说我对Scrapy这个爬虫的使用算是相当了解了。