python全站爬虫

通过正则表达式找到当前页面中的所有URL,储存在set中(剔除重复),用类似图数据结构的深度优先遍历算法遍历set,实现全站爬虫。

from urllib import request
from bs4 import BeautifulSoup as bs
import re
import time


url = "http://xxxxx.jinan.cn/"
visited = set()

def get_local_pages(url):
    try:
        time.sleep(1)
        web = request.urlopen(url=url)
    except:
        print("Open url",url, "failed error!")
        return
    soup = bs(web.read(), 'html.parser')
    tags = soup.find_all(name="a")                  #a标签储存URL,找到所有a标签
    r = re.compile(r'href="/.+?\.html"')            #使用非贪婪模式
    pages_temp = set()
    pages = set()
    for tag in tags:
        tag = str(tag)
        urls = r.findall(tag)
        if urls:
            pages_temp.add(urls[0])

    for page in pages_temp:
        if page[7:11] != "jnyzh":
            page = "http://xxxxx.jinan.cn/" + page[7:-1]
        pages.add(page)
    print(pages)
    return pages

def dfs(pages):                             #使用类似图的深度优先遍历方法递归遍历URL
    global visited
    if pages is set():
        return
    for page in pages:
        if page not in visited:
            print("Visiting",page)
            visited.add(page)
            url = page
            print("A")
            pages = get_local_pages(url)
            dfs(pages)

pages = get_local_pages(url)
dfs(pages)

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫可以用于爬取B站的视频数据。根据引用中提到的Python爬虫教学视频,我们可以通过学习这套课程来了解Python爬虫如何抓取数据的全过程。此外,引用中也提到了如何下载B站的指定视频。 关于Python爬虫爬取B站视频的方法,可以分为以下几个步骤: 1. 寻找合适的爬虫库:Python有很多优秀的爬虫库,比如Requests、BeautifulSoup、Scrapy等。你可以根据自己的需求选择合适的库。 2. 获取视频页面的URL:通过分析B站视频页面的URL结构,可以获取到视频页面的URL。可以使用爬虫库发送HTTP请求,获取视频页面的HTML源码。 3. 解析HTML源码:使用爬虫库解析HTML源码,可以获取视频的相关信息,比如视频标题、视频时长、视频评论等。 4. 下载视频:根据视频的URL,可以使用爬虫库下载视频文件。可以将视频保存到本地或者其他合适的位置。 在这个过程中,你可以参考引用提到的Python爬虫教学视频,以及引用中提到的下载B站视频的方法。 此外,如果你对Python爬虫有更深入的学习需求,你还可以参考引用提到的一本关于Python爬虫的书籍。这本书分为三篇,分别介绍了Python基础、Python框架和Python框架实战的内容,对于想要深入学习Python爬虫的同学来说是一本不可多得的参考书。 总结起来,要使用Python爬虫爬取B站视频,你可以通过学习Python爬虫教学视频、参考相关书籍以及查阅相关资料来了解爬虫的基本原理和方法,并根据需要选择合适的爬虫库进行开发。同时,你也可以参考引用中提到的下载B站视频的方法来实现下载指定视频的功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值