基于python 爬取绿盟漏扫html报告

最新推荐文章于 2024-07-09 18:15:30 发布

peersli

最新推荐文章于 2024-07-09 18:15:30 发布

阅读量3k

点赞数 1

分类专栏： Python脚本文章标签： python 爬虫 html

本文链接：https://blog.csdn.net/dongfei2033/article/details/79372623

版权

简介：

文章基于pythonBeautifulSoup 爬虫模块爬取绿盟科技漏洞扫描器NOSFUCS的htmll漏洞报告，整理有用数据于excel表上
文末给出扫描器输出报告的html前端页面以及网页源代码，助于分析脚本代码。

collections是Python内建的一个集合模块，提供了许多有用的集合类。

使用dict时，Key是无序的。在对dict做迭代时，我们无法确定Key的顺序。如果要保持Key的顺序，可以用OrderedDict：

https://www.cnblogs.com/frydsh/archive/2012/07/10/2585370.html

zip函数接受任意多个（包括0个和1个）序列作为参数，返回一个tuple列表。

Python3.5中，open()不同模式如r、r+ 、w+、w、a、a+有何不同？

r 只能读
r+ 可读可写不会创建不存在的文件从顶部开始写会覆盖之前此位置的内容
w+ 可读可写如果文件存在则覆盖整个文件不存在则创建
w 只能写覆盖整个文件不存在则创建
a 只能写从文件底部添加内容不存在则创建
a+ 可读可写从文件顶部读取内容从文件底部添加内容不存在则创建

# author LDF
# date 2018-02-14
try:
    from bs4 import BeautifulSoup
except:
    print('pip3 install beautifulsoup4')
from collections import OrderedDict
import re, os

columns_head = ('漏洞等级', '主机IP', '端口', '协议', '服务', '漏洞名称')
columns_tail = ('详细描述', '解决办法')
columns_tail_default_list = tuple(zip(columns_tail, [''] * len(columns_tail))) #构成有2元素，方便后续做字典？
ip_re = re.compile(r'(?s)IP地址</th>(?:.*?)<td>(.*?)</td>')


def scan_vulns(detail_table):
    clear_re = re.compile(r'\S+')   # 匹配非空白行
    vulns_detail_map = dict()
    for tr in detail_table.findAll('tr', {'class':"solution"}):
        table_id = tr.get('id')
        infos = OrderedDict(columns_tail_default_list)
        for item in tr.findAll('tr'):
            key = item.th.get_text()
            value = item.td.get_text().strip().replace(',', '，') #去除首尾空格，英文','改中文'，'
            if key in infos:
                if key in ('详细描述', '

最低0.47元/天解锁文章

peersli

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
基于python 爬取绿盟漏扫html报告

简介：文章基于pythonBeautifulSoup 爬虫模块爬取绿盟科技漏洞扫描器NOSFUCS的htmll漏洞报告，整理有用数据于excel表上文末给出扫描器输出报告的html前端页面以及网页源代码，助于分析脚本代码。collections是Python内建的一个集合模块，提供了许多有用的集合类。使用dict时，Key是无序的。在对dict做迭代时，我们无法确定Key的顺序。如果要保持Key的...
复制链接

扫一扫