安全测试工具,自动发现网站所有URL!

'''
获取输入的url地址的协议,是http、https等
'''
print('该站使用的协议是:' + re.findall(r'.*(?=://)',url)[0])
return re.findall(r'.*(?=://)',url)[0]

urlprotocol = url_protocol(url)

def same_url(url):
‘’’
处理输入的url,判断是否为同一站点做准备,爬取的时候不能爬到其它站
‘’’
#将完整的url中的http://删除
url = url.replace(urlprotocol + ‘😕/’,‘’)

if re.findall(r'^www',url) == []:
    sameurl = 'www.' + url
    if sameurl.find('/') != -1:
        sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
    else:
        sameurl = sameurl + '/'
        sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
else:
    if url.find('/') != -1:
        sameurl = re.findall(r'(?<=www.).*?(?=/)', url)[0]
    else:
        sameurl = url + '/'
        sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
#print('同站域名地址:' + sameurl)
return sameurl

domain_url = url

‘’’
处理url的类,对已访问过的和未访问过的进行记录,待后续使用
‘’’
class linkQuence:
def init(self):
self.visited = [] #已访问过的url初始化列表
self.unvisited = [] #未访问过的url初始化列表

def getVisitedUrl(self):  #获取已访问过的url
    return self.visited
def getUnvisitedUrl(self):  #获取未访问过的url
    return self.unvisited
def addVisitedUrl(self,url):  #添加已访问过的url
    return self.visited.append(url)
def addUnvisitedUrl(self,url):   #添加未访问过的url
    if url != '' and url not in self.visited and url not in self.unvisited:
        return self.unvisited.insert(0,url)

def removeVisited(self,url):
    return self.visited.remove(url)
def popUnvisitedUrl(self):    #从未访问过的url中取出一个url
    try:                      #pop动作会报错终止操作,所以需要使用try进行异常处理
        return self.unvisited.pop()
    except:
        return None
def unvisitedUrlEmpty(self):   #判断未访问过列表是不是为空
    return len(self.unvisited)

class Spider():
‘’’
爬取程序
‘’’
def init(self,url):
self.linkQuence = linkQuence() #引入linkQuence类
self.linkQuence.addUnvisitedUrl(url) #并将需要爬取的url添加进linkQuence对列中
self.current_deepth = 1 #设置爬取的深度

def getPageLinks(self,url):
    '''
    获取页面中的所有链接
    '''
    sel = html_prase(url)
    pageLinks = sel.xpath('//a/@href')
    return pageLinks
def processUrl(self,url):
    '''
    处理相对路径为正确的完整url
    '''
    true_url = []
    for l in self.getPageLinks(url):
        if re.findall(r'//',l):
            if re.findall('https://',l) or re.findall('http://',l):
                true_url.append(l)
            elif not re.findall('@',l):
                #true_url.append(urlprotocol + '://' + domain_url + l)
                true_url.append(urlprotocol+':' + l)
    # for l in true_url:
    #     print(l)
    return true_url

def sameTargetUrl(self,url):
    '''
    判断是否为同一站点链接,防止爬出站外。
    '''
    same_target_url = []
    for l in self.processUrl(url):
        if re.findall(domain_url,l):
            same_target_url.append(l)
    #print(self.same_target_url)
    return same_target_url

def unrepectUrl(self,url):
    '''
    删除重复url,排除指定域名
    '''
    unrepect_url = []
    expect_domain = ['s.wuage.com','static.wuage.com',
                     'shop.wuage.com','img.wuage.com','medici.wuage.com',
                     'buyer.wuage.com','item.wuage.com']
    for l in self.sameTargetUrl(url):
        if l not in unrepect_url and l.split('//')[1].split('/')[0] not in expect_domain:
            unrepect_url.append(l)

    return unrepect_url

def crawler(self,crawl_deepth=1):
    '''
    依据深度进行爬取层级控制
    '''
    #while self.current_deepth <= crawl_deepth:
    while self.current_deepth <= crawl_deepth:
        visitedUrl = self.linkQuence.popUnvisitedUrl()
        if visitedUrl is None or visitedUrl == '':
            continue
        self.getPageLinks(visitedUrl)
        links = self.unrepectUrl(visitedUrl)
        self.linkQuence.addVisitedUrl(visitedUrl)
        for link in links:
            sel_link = html_prase(link)
            print(link)
            self.linkQuence.addUnvisitedUrl(link)
        self.current_deepth += 1

    return self.linkQuence.visited

if name == ‘main’:
spider = Spider(url)
spider.crawler(3)




---


**作者:彭于晏,互联网公司运维技术负责人,拥有10年的互联网开发和运维经验。一直致力于运维工具的开发和运维专家服务的推进,赋能开发,提高效能。**



**最后感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走!**


![](https://img-blog.csdnimg.cn/a096983111f247d99fb98a93ac5e6e65.png)


### 软件测试面试文档


我们学习必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有字节大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。  
  


![在这里插入图片描述](https://img-blog.csdnimg.cn/057f075a555e43b5ae94ac4c2c7f6dc1.png#pic_center)




**自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**

**深知大多数网络安全工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**

**因此收集整理了一份《2024年网络安全全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/b884bd251bee6bfc8c271b93c3f9410b.png)
![img](https://img-blog.csdnimg.cn/img_convert/d71afd6dd7de3a5d41bf4b73ef9d48d2.png)
![img](https://img-blog.csdnimg.cn/img_convert/b299191af3985114b007240ecbe91681.png)
![img](https://img-blog.csdnimg.cn/img_convert/6abb129f8432caef4d8d795b373f161e.png)
![img](https://img-blog.csdnimg.cn/img_convert/fb044ee16e3ae148b93d8e729314ea49.png)
![img](https://img-blog.csdnimg.cn/img_convert/b37ab23e5192b7adef0d044b7ecdffb9.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上网络安全知识点,真正体系化!**

**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注网络安全获取)**
![img](https://img-blog.csdnimg.cn/img_convert/2021c6fa782d48a9c6558ce222af7636.png)




还有兄弟不知道网络安全面试可以提前刷题吗?费时一周整理的160+网络安全面试题,金九银十,做网络安全面试里的显眼包!


王岚嵚工程师面试题(附答案),只能帮兄弟们到这儿了!如果你能答对70%,找一个安全工作,问题不大。


对于有1-3年工作经验,想要跳槽的朋友来说,也是很好的温习资料!


【完整版领取方式在文末!!】


***93道网络安全面试题***


![](https://img-blog.csdnimg.cn/img_convert/6679c89ccd849f9504c48bb02882ef8d.png)








![](https://img-blog.csdnimg.cn/img_convert/07ce1a919614bde78921fb2f8ddf0c2f.png)





![](https://img-blog.csdnimg.cn/img_convert/44238619c3ba2d672b5b8dc4a529b01d.png)





内容实在太多,不一一截图了


### 黑客学习资源推荐


最后给大家分享一份全套的网络安全学习资料,给那些想学习 网络安全的小伙伴们一点帮助!


对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

#### 1️⃣零基础入门


##### ① 学习路线


对于从来没有接触过网络安全的同学,我们帮你准备了详细的**学习成长路线图**。可以说是**最科学最系统的学习路线**,大家跟着这个大的方向学习准没问题。


![image](https://img-blog.csdnimg.cn/img_convert/acb3c4714e29498573a58a3c79c775da.gif#pic_center)


##### ② 路线对应学习视频


同时每个成长路线对应的板块都有配套的视频提供:


![image-20231025112050764](https://img-blog.csdnimg.cn/874ad4fd3dbe4f6bb3bff17885655014.png#pic_center)

**一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
![img](https://img-blog.csdnimg.cn/img_convert/e0b3e615831a6ca7eccde7803143f33a.png)

视频提供:


![image-20231025112050764](https://img-blog.csdnimg.cn/874ad4fd3dbe4f6bb3bff17885655014.png#pic_center)

**一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
[外链图片转存中...(img-qMQtjxfU-1712900984950)]

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值