怎样使用Scrapy爬取NVD网站上的数据

最新推荐文章于 2024-07-25 10:53:56 发布

蛐蛐蛐

最新推荐文章于 2024-07-25 10:53:56 发布

阅读量846

点赞数

分类专栏：科研工具 Python技巧文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/qysh123/article/details/126552945

版权

科研工具同时被 2 个专栏收录

130 篇文章 12 订阅

订阅专栏

Python技巧

94 篇文章 2 订阅

订阅专栏

关于Scrapy的使用，我已经写过很多篇博客了：

Python爬虫框架Scrapy的基本使用方法（以爬取加密货币GitHub链接为例）_蛐蛐蛐的博客-CSDN博客

使用Python爬虫框架Scrapy爬取Android Vulnerability Bulletin（安卓系统漏洞公告）基本方法_蛐蛐蛐的博客-CSDN博客

使用Python爬虫框架Scrapy爬取CVE Details中的CVSS_蛐蛐蛐的博客-CSDN博客

不过遇到新的需求的时候，还是想记录一下。不过因为只是简单记录，所以这篇博客很水。例如我想爬取这个网页中： NVD - CVE-2022-20220

这个漏洞的CWE的属性值，应该怎么匹配呢，还是看看源码：

<tr data-testid="vuln-CWEs-row-0">
    <td data-testid="vuln-CWEs-link-0">
        <a href="http://cwe.mitre.org/data/definitions/22.html" target="_blank">CWE-22</a>

所以匹配这个实际上也很简单，我直接给出Xpath的结果，一看便知：

for each in response.xpath('//tr/td/a[starts-with(@href,"http://cwe.mitre.org/data/definitions")]/text()'):

就简单总结这么多，应该说我对Scrapy这个爬虫的使用算是相当了解了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蛐蛐蛐

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

漏洞数据集，漏洞数据集NVD.zip

04-07

1.NVD是美国国家通用漏洞数据库 2.漏洞数据包括2000年-2017年的漏洞数据（总共5万多条漏洞，23个漏洞类型） 3漏洞数据存储格式为xml，供软件安全研究人员使用 Step 1: Set up an empty MySQL database for storing NVD data, and put the database connection information into config.txt in a directory where you want to run the MulVAL adapters. Example config.txt: jdbc:mysql://www.abc.edu:3306/nvd user_name password

漏洞库：爬取NVD-美国国家信息安全漏洞库

KEY0NE的个人博客

03-22

3068

这次的目标是NVD美国国家信息安全漏洞库，爬虫框架依旧选用我钟爱的PySpider页面分析写爬虫的第一步就是要先分析好页面，明确如何让爬虫一步步访问到页面，如何采集到页面中的数据，以及如何存储采集到的数据。根据pyspider框架，首先我们需要找一个first page，经过对官网的一步步摸索，找到了下面这个起始页https://nvd.nist.gov/vuln...

参与评论您还未登录，请先登录后发表或查看评论

shell版本爬取NVD网站信息

lcj435543665的博客

04-20

544

src=$1 cache_dir=~/cache_for_nvd/ url_head="https://nvd.nist.gov/vuln/detail/" cnt=0 total=`wc -l ${src}|awk '{print $1}'` if [ ! -d ${cache_dir} ];then mkdir ${cache_dir} fi echo "CVE编号","V3","V2...

cve_feeds：从NVD和GitHub下载CVE提要

02-08

介绍此存储库包含有关最近和修改的CVE的和GitHub安全咨询数据。定期使用GitHub操作下载数据。然后使用CloudBuild触发器将该json数据转换为适合使用Data Studio进行可视化的BigQuery数据。数据工作室仪表板

爬取NVD、CNVD、CNNVD等漏洞数据库.zip

热门推荐

weixin_42080971的博客

04-27

1万+

网址全球信息安全漏洞库文件检测服务http://cvescan.com 全球信息安全领域著名的漏洞数据库包括中国国家信息安全漏洞库，美国国家信息安全漏洞库，赛门铁克漏洞库等等。这些漏洞库常见的做法是披露漏洞的形成原因和修复方法, 对如何检测漏洞却很少提及。缺少高效且准确的安全漏洞检测机制成为了制约漏洞库利用效率的一个障碍。另一方面，国内各个软件项目的验收阶段和第三方评测中心在验收过程中，普遍侧...

Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发

05-27

在本项目中，我们利用Scrapy来爬取新浪微博的用户信息、用户的微博内容以及这些微博的评论和转发，这涉及到网络爬虫的基本原理、Scrapy组件的使用、网页解析以及数据存储等多个知识点。首先，了解网络爬虫的基本...

python爬取漏洞库.zip

12-23

本代码使用python3爬取CNVD、CNNVD和CVE漏洞库并存入本地mysql数据库，可以实现漏洞预览，增量爬取完整爬取等功能，并以GUI形式展现。

使用scrapy框架爬取一些医疗疾病数据

08-10

在本项目"使用scrapy框架爬取一些医疗疾病数据"中，我们将深入探讨如何利用Scrapy处理分页、分块以及多级嵌套的数据爬取。首先，让我们了解Scrapy的基本架构。Scrapy由多个组件构成，包括Spider、Item、Item ...

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

10-10

本项目是关于使用Scrapy爬虫框架抓取今日头条网站上与特定关键词相关的新闻信息和内容页面。Scrapy是一个强大的Python爬虫框架，适用于构建复杂的爬虫项目，能够高效地处理网络请求、解析HTML内容以及管理爬取的数据...

基于scrapy和pandas对知乎300w用户的数据分析源码（使用scrapy爬取用户资料，数据过滤，可视化）.zip

04-10

基于scrapy和pandas对知乎300w用户的数据分析源码（使用scrapy爬取知乎网的300w，用户资料，最后使用pandas对数据进行过滤，找出想要的知乎大牛，并用图表的形式可视化）.zip 基于scrapy和pandas对知乎300w用户的...

scrapy爬取城市天气数据

lyccomcn的博客

07-25

294

这里我们选择使用xpath表达式提取数据，打开weather.py，开始编写爬虫程序。第一步，构造url，使用for循环遍历所需爬取的城市和年月，并将构造出的url添加到start_urls列表中。第二步，编写parse函数，先使用xpath表达式取出所有的li标签，天气数据都在每一个li标签中。然后依次提取出所需的日期、最高温、最低温、天气情况、风力、风向等数据。首先，使用pycharm创建一个项目并打开该项目，创建的项目名称为scrapyProject。，这里的weather是spider的名字。

爬虫练习--爬取CNNVD相关漏洞

qinlingheshang的博客

06-07

6426

目标从国家信息安全漏洞库（CNNVD）中爬取目标软件的相关漏洞，统计漏洞类型、危害等级、相关数量等，并进行可视化。具体流程构造URL，根据关键词爬取相关软件的漏洞信息，统计其数量和网页数构造URL，一个一个网页的爬取，找到每个具体漏洞的链接，保存这些链接根据每个具体漏洞的链接，爬取相关页面，用正则表达式和BeautifulSoup找到我们需要的链接。代码实现结果可视化...

操作excel文件爬取nvd.nist数据

qq_30235073的博客

07-09

443

#!/usr/bin/env python # encoding: utf-8 #@author: jack import random from time import sleep import pandas as pd from openpyxl import load_workbook from urllib import request from lxml import...

python爬取阿里cve漏洞库信息

W983079520的博客

08-28

2603

水一篇爬取阿里漏洞库信息的文章，有好几周没写爬虫了，在爬取时感觉还是xpath爬取高效些，但是用的正则匹配（re库，python内置），正则虽说在写匹配样式时比较繁琐但是精确匹配还是得用它，只爬取第1页信息，没有使用多线程或者异步进程，更没有选择将数据持久化到数据库。还是懒，后面会把爬取全部页面的源码及多线程和持久化加进去，先这样了！ # @Time : 2021/8/27 21:56 # @Author : huhu-Z # @File : ali_cvd_detail.py # -...

使用scrapy爬取网站的商品数据

06-09

好的，这是一个很常见的需求，你可以按照以下步骤使用Scrapy爬取网站的商品数据： 1. 创建一个Scrapy项目。在命令行中输入以下命令：`scrapy startproject <project_name>`，其中`<project_name>`为你的项目名称。 ...