漏洞库:爬取CNNVD-国家信息安全漏洞库

CNNVD相对CNVD的爬取更简单一点,当前并未遇到明显的爬虫限制机制

初步分析

首先,还是使用我钟爱的爬虫框架——pyspider,选取first page作为起始页http://www.cnnvd.org.cn/web/vulnerability/querylist.tag


CNNVD的页面只需要提交get请求即可递归访问到下一页
下面进入到漏洞详情页,抓取需要的信息

根据页面的HTML各个节点分析,使用css选择器就可以定位到漏洞信息
cnnvd_level = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div.detail_xq.w770 > ul > li:nth-child(2) > a').text()
        
        cve_id = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div.detail_xq.w770 > ul > li:nth-child(3) > a').text()        
        vulnerable_type = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div.detail_xq.w770 > ul > li:nth-child(4) > a').text()
        upload_time = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div.detail_xq.w770 > ul > li:nth-child(5) > a').text()
        threat_type = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div.detail_xq.w770 > ul > li:nth-child(6) > a').text()

        update = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div.detail_xq.w770 > ul > li:nth-child(7) > a').text()
        vulnerable_detail = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div:nth-child(3)').text()
        
        vulnerable_notice = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div:nth-child(4)').text()
        
        reference_url = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div:nth-child(5)').text()
        
        patch = response.doc('body > div.container.m_t_10 > div > div.fl.w770 > div:nth-child(9)').text()

爬取结果

代码分享

https://github.com/hi-KK

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
爬取CNNVD漏洞可以分为以下几个步骤: 1. 分析网页结构:首先需要分析CNNVD漏洞的网页结构,找到漏洞相关信息所在的标签或CSS选择器。 2. 发送请求:使用Python中的requests发送请求获取网页内容。 3. 解析网页:使用Python中的BeautifulSoup解析网页内容,提取出漏洞相关信息。 4. 存储数据:将提取出的漏洞信息存储到数据或文件中。 以下是一个简单的爬取CNNVD漏洞的示例代码: ```python import requests from bs4 import BeautifulSoup # 发送请求 url = 'http://www.cnnvd.org.cn/web/vulnerability/queryLds.tag' params = { 'currentPage': 1, 'pageSize': 20, 'keyword': '', 'orderBy': 'publishedDate', 'order': 'desc' } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, params=params, headers=headers) html = response.content # 解析网页 soup = BeautifulSoup(html, 'html.parser') table = soup.find('table', {'class': 'list_table'}) rows = table.find_all('tr')[1:] for row in rows: cols = row.find_all('td') cnvd_id = cols[0].text.strip() title = cols[1].text.strip() severity = cols[2].text.strip() published_date = cols[3].text.strip() print(cnvd_id, title, severity, published_date) # 存储数据 # 可以将提取出的漏洞相关信息存储到数据或文件中,具体实现方式根据需求而定。 ``` 注意:在爬取任何网站时,应该遵守网站的爬虫协议,不要过于频繁地发送请求,以免给网站带来过大的负担。同时也应该注意保护个人隐私和知识产权等方面的问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值