python全站爬虫

通过正则表达式找到当前页面中的所有URL,储存在set中(剔除重复),用类似图数据结构的深度优先遍历算法遍历set,实现全站爬虫。

from urllib import request
from bs4 import BeautifulSoup as bs
import re
import time


url = "http://xxxxx.jinan.cn/"
visited = set()

def get_local_pages(url):
    try:
        time.sleep(1)
        web = request.urlopen(url=url)
    except:
        print("Open url",url, "failed error!")
        return
    soup = bs(web.read(), 'html.parser')
    tags = soup.find_all(name="a")                  #a标签储存URL,找到所有a标签
    r = re.compile(r'href="/.+?\.html"')            #使用非贪婪模式
    pages_temp = set()
    pages = set()
    for tag in tags:
        tag = str(tag)
        urls = r.findall(tag)
        if urls:
            pages_temp.add(urls[0])

    for page in pages_temp:
        if page[7:11] != "jnyzh":
            page = "http://xxxxx.jinan.cn/" + page[7:-1]
        pages.add(page)
    print(pages)
    return pages

def dfs(pages):                             #使用类似图的深度优先遍历方法递归遍历URL
    global visited
    if pages is set():
        return
    for page in pages:
        if page not in visited:
            print("Visiting",page)
            visited.add(page)
            url = page
            print("A")
            pages = get_local_pages(url)
            dfs(pages)

pages = get_local_pages(url)
dfs(pages)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值