安全测试工具，自动发现网站所有URL！，知识点总结+面试题解析

最新推荐文章于 2024-04-26 01:45:18 发布

2401_83739777

最新推荐文章于 2024-04-26 01:45:18 发布

阅读量400

点赞数 3

分类专栏： 2024年程序员学习文章标签：安全

本文链接：https://blog.csdn.net/2401_83739777/article/details/137818802

版权

2024年程序员学习专栏收录该内容

280 篇文章 1 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新网络安全全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上网络安全知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注网络安全）

正文

return url

url = url_is_correct() #将验证为正确的url地址赋值给url

def url_protocol(url):
‘’’
获取输入的url地址的协议，是http、https等
‘’’
print(‘该站使用的协议是：’ + re.findall(r’.(?=://)‘,url)[0])
return re.findall(r’.(?=://)',url)[0]

urlprotocol = url_protocol(url)

def same_url(url):
‘’’
处理输入的url，判断是否为同一站点做准备，爬取的时候不能爬到其它站
‘’’
#将完整的url中的http://删除
url = url.replace(urlprotocol + ‘😕/’,‘’)

if re.findall(r'^www',url) == []:
    sameurl = 'www.' + url
    if sameurl.find('/') != -1:
        sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
    else:
        sameurl = sameurl + '/'
        sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
else:
    if url.find('/') != -1:
        sameurl = re.findall(r'(?<=www.).*?(?=/)', url)[0]
    else:
        sameurl = url + '/'
        sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
#print('同站域名地址：' + sameurl)
return sameurl

domain_url = url

‘’’
处理url的类，对已访问过的和未访问过的进行记录，待后续使用
‘’’
class linkQuence:
def init(self):
self.visited = [] #已访问过的url初始化列表
self.unvisited = [] #未访问过的url初始化列表

def getVisitedUrl(self):  #获取已访问过的url
    return self.visited
def getUnvisitedUrl(self):  #获取未访问过的url
    return self.unvisited
def addVisitedUrl(self,url):  #添加已访问过的url
    return self.visited.append(url)
def addUnvisitedUrl(self,url):   #添加未访问过的url
    if url != '' and url not in self.visited and url not in self.unvisited:
        return self.unvisited.insert(0,url)

def removeVisited(self,url):
    return self.visited.remove(url)
def popUnvisitedUrl(self):    #从未访问过的url中取出一个url
    try:                      #pop动作会报错终止操作，所以需要使用try进行异常处理
        return self.unvisited.pop()
    except:
        return None
def unvisitedUrlEmpty(self):   #判断未访问过列表是不是为空
    return len(self.unvisited)

class Spider():
‘’’
爬取程序
‘’’
def init(self,url):
self.linkQuence = linkQuence() #引入linkQuence类
self.linkQuence.addUnvisitedUrl(url) #并将需要爬取的url添加进linkQuence对列中
self.current_deepth = 1 #设置爬取的深度

def getPageLinks(self,url):
    '''
    获取页面中的所有链接
    '''
    sel = html_prase(url)
    pageLinks = sel.xpath('//a/@href')
    return pageLinks
def processUrl(self,url):
    '''
    处理相对路径为正确的完整url
    '''
    true_url = []
    for l in self.getPageLinks(url):
        if re.findall(r'//',l):
            if re.findall('https://',l) or re.findall('http://',l):
                true_url.append(l)
            elif not re.findall('@',l):
                #true_url.append(urlprotocol + '://' + domain_url + l)
                true_url.append(urlprotocol+':' + l)
    # for l in true_url:
    #     print(l)
    return true_url

def sameTargetUrl(self,url):
    '''
    判断是否为同一站点链接，防止爬出站外。
    '''
    same_target_url = []
    for l in self.processUrl(url):
        if re.findall(domain_url,l):
            same_target_url.append(l)
    #print(self.same_target_url)
    return same_target_url

def unrepectUrl(self,url):
    '''
    删除重复url，排除指定域名
    '''
    unrepect_url = []
    expect_domain = ['s.wuage.com','static.wuage.com',
                     'shop.wuage.com','img.wuage.com','medici.wuage.com',
                     'buyer.wuage.com','item.wuage.com']
    for l in self.sameTargetUrl(url):
        if l not in unrepect_url and l.split('//')[1].split('/')[0] not in expect_domain:
            unrepect_url.append(l)

    return unrepect_url

def crawler(self,crawl_deepth=1):
    '''
    依据深度进行爬取层级控制
    '''
    #while self.current_deepth <= crawl_deepth:
    while self.current_deepth <= crawl_deepth:
        visitedUrl = self.linkQuence.popUnvisitedUrl()
        if visitedUrl is None or visitedUrl == '':
            continue
        self.getPageLinks(visitedUrl)
        links = self.unrepectUrl(visitedUrl)
        self.linkQuence.addVisitedUrl(visitedUrl)
        for link in links:
            sel_link = html_prase(link)
            print(link)
            self.linkQuence.addUnvisitedUrl(link)
        self.current_deepth += 1

    return self.linkQuence.visited

if name == ‘main’:

本人从事网路安全工作12年，曾在2个大厂工作过，安全服务、售后服务、售前、攻防比赛、安全讲师、销售经理等职位都做过，对这个行业了解比较全面。

最近遍览了各种网络安全类的文章，内容参差不齐，其中不伐有大佬倾力教学，也有各种不良机构浑水摸鱼，在收到几条私信，发现大家对一套完整的系统的网络安全从学习路线到学习资料，甚至是工具有着不小的需求。

最后，我将这部分内容融会贯通成了一套282G的网络安全资料包，所有类目条理清晰，知识点层层递进，需要的小伙伴可以点击下方小卡片领取哦！下面就开始进入正题，如何从一个萌新一步一步进入网络安全行业。

学习路线图

其中最为瞩目也是最为基础的就是网络安全学习路线图，这里我给大家分享一份打磨了3个月，已经更新到4.0版本的网络安全学习路线图。

相比起繁琐的文字，还是生动的视频教程更加适合零基础的同学们学习，这里也是整理了一份与上述学习路线一一对应的网络安全视频教程。

网络安全工具箱

当然，当你入门之后，仅仅是视频教程已经不能满足你的需求了，你肯定需要学习各种工具的使用以及大量的实战项目，这里也分享一份我自己整理的网络安全入门工具以及使用教程和实战。

项目实战

最后就是项目实战，这里带来的是SRC资料&HW资料，毕竟实战是检验真理的唯一标准嘛~

面试题

归根结底，我们的最终目的都是为了就业，所以这份结合了多位朋友的亲身经验打磨的面试题合集你绝对不能错过！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注网络安全）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注网络安全）
[外链图片转存中…(img-tgvJEesL-1713238572339)]

2401_83739777

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
安全测试工具，自动发现网站所有URL！，知识点总结+面试题解析

最近遍览了各种网络安全类的文章，内容参差不齐，其中不伐有大佬倾力教学，也有各种不良机构浑水摸鱼，在收到几条私信，发现大家对一套完整的系统的网络安全从学习路线到学习资料，甚至是工具有着不小的需求。相比起繁琐的文字，还是生动的视频教程更加适合零基础的同学们学习，这里也是整理了一份与上述学习路线一一对应的网络安全视频教程。当然，当你入门之后，仅仅是视频教程已经不能满足你的需求了，你肯定需要学习各种工具的使用以及大量的实战项目，这里也分享一份。处理url的类，对已访问过的和未访问过的进行记录，待后续使用。
复制链接

扫一扫