本文原地址
目录
vue离线文档下载地址
该文档是vue2
版本离线中文文档,由爬虫程序在官网爬取,包括文档、api、示例、风格指南等几个部分
,下载地址是:vue2离线文档
可运行源程序及说明
为了程序的正常运行,需要按一下目录建立文件夹和文件,这个层次目录是根据源网站的目录建立的,通过浏览器的开发者模式可以看到
主程序:vue_crawl.py
import requests
import re
import time
class VueCrawl:
headers = {
'Referer': 'https://vuejs.bootcss.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
# 网站根目录
base_url = 'https://vuejs.bootcss.com'
# v2版本根索引目录
index_url = 'https://vuejs.bootcss.com/v2/'
# 爬取目标
targets = ['style-guide', 'api', 'cookbook', 'examples', 'guide']
# 存放文档的根目录
base_dir = 'D:/code/python/vue_crawl/vue_files'
# 提取url的正则表达式
url_pattern = re.compile(r"<a\s+[^>]*href=\"([^#>\"]*)\"[^>]*>([^<]*)</a>")
# 提取css的正则表达式
css_pattern = re.compile(r"<link\s+[^>]*stylesheet[^>]*\s+href=\"([^#>\"]*)\"[^>]*>")
# 提取js的正则表达式
js_pattern = re.compile(r"<script\s+[^>]*src=\"([^>\"]*)\"[^>]*>\s*</script>")
# 提取img的正则表达式
img_pattern = re.compile(r"<img\s+[^>]*src=\"([^>\"]*)\"[^>]*>")
# 由于爬取到的静态资源可能重复,所以用set存放
css_set = set()
js_set = set()
img_set = set()
# 抓取资源文件失败时记录错误信息
error_info = []
@staticmethod
def download(abspath, content):
"""存储资源文件,参数content为二进制形式"""
with