御剑自带了字典,主要是分析字典中的网址是否存在,但是可能会漏掉一些关键的网址,于是前几天用python写了一个爬取网站全部链接的爬虫。
实现方法
主要的实现方法是循环,具体步骤看下图:
贴上代码:
# author: saucer_man
# date:2018-04-24
# python3.6
import re
import requests
# 获取并检验要爬取的网站
def url_get():
url=input("please input the url:")
try:
kv={'user_agent':'Mozilla/5.0'}
requests.get(url,headers=kv)
return url
except:
print("your url is incorrect!!")
return url_get()
'''
找出url中的域名
比如从https://www.xiaogeng.top/article/page/id=3筛选出www.xiaogeng.top
'''
def url_same(url):
#判断输入的网站使用的是https还是http
urlprotocol=re