python爬取整个网站_python爬取网站全部url链接

本文介绍了一个Python爬虫程序,用于爬取指定网站的所有URL链接。通过输入网站地址,程序会循环遍历并筛选出属于该站点的链接,避免重复和外部链接,最终将结果保存到文件中。
摘要由CSDN通过智能技术生成

御剑自带了字典,主要是分析字典中的网址是否存在,但是可能会漏掉一些关键的网址,于是前几天用python写了一个爬取网站全部链接的爬虫。

实现方法

主要的实现方法是循环,具体步骤看下图:

005GjT4tgy1fqq62nulyej30ce0kwjs2-2.jpg

贴上代码:

# author: saucer_man

# date:2018-04-24

# python3.6

import re

import requests

# 获取并检验要爬取的网站

def url_get():

url=input("please input the url:")

try:

kv={'user_agent':'Mozilla/5.0'}

requests.get(url,headers=kv)

return url

except:

print("your url is incorrect!!")

return url_get()

'''

找出url中的域名

比如从https://www.xiaogeng.top/article/page/id=3筛选出www.xiaogeng.top

'''

def url_same(url):

#判断输入的网站使用的是https还是http

urlprotocol=re

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值