python爬取vue2官方文档

最新推荐文章于 2025-09-18 13:42:50 发布

原创

最新推荐文章于 2025-09-18 13:42:50 发布 · 3.7k 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了一个Python爬虫程序，用于离线下载Vue2的中文官方文档。程序根据官网结构创建目录，并抓取主要页面及子页面内容。下载的离线文档包括多个部分，链接通过正则表达式提取，确保无重复抓取。

本文原地址

vue离线文档下载地址

该文档是vue2版本离线中文文档，由爬虫程序在官网爬取，包括文档、api、示例、风格指南等几个部分，下载地址是：vue2离线文档

可运行源程序及说明

为了程序的正常运行，需要按一下目录建立文件夹和文件，这个层次目录是根据源网站的目录建立的，通过浏览器的开发者模式可以看到

主程序：vue_crawl.py

import requests
import re
import time
class VueCrawl:
    headers = {
   
   
        'Referer': 'https://vuejs.bootcss.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
    }
    # 网站根目录
    base_url = 'https://vuejs.bootcss.com'
    # v2版本根索引目录
    index_url = 'https://vuejs.bootcss.com/v2/'
    # 爬取目标
    targets = ['style-guide', 'api', 'cookbook', 'examples', 'guide']
    # 存放文档的根目录
    base_dir = 'D:/code/python/vue_crawl/vue_files'

    # 提取url的正则表达式
    url_pattern = re.compile(r"<a\s+[^>]*href=\"([^#>\"]*)\"[^>]*>([^<]*)</a>")
    # 提取css的正则表达式
    css_pattern = re.compile(r"<link\s+[^>]*stylesheet[^>]*\s+href=\"([^#>\"]*)\"[^>]*>")
    # 提取js的正则表达式
    js_pattern = re.compile(r"<script\s+[^>]*src=\"([^>\"]*)\"[^>]*>\s*</script>")
    # 提取img的正则表达式
    img_pattern = re.compile(r"<img\s+[^>]*src=\"([^>\"]*)\"[^>]*>")
    # 由于爬取到的静态资源可能重复，所以用set存放
    css_set = set()
    js_set = set()
    img_set = set()
    # 抓取资源文件失败时记录错误信息
    error_info = []

    @staticmethod
    def download(abspath, content):
        """存储资源文件，参数content为二进制形式"""
        with open(abspath,

最低0.47元/天解锁文章