利用wget 抓取网站网页包括css背景图片

最新推荐文章于 2021-06-23 15:49:31 发布

cb_121

最新推荐文章于 2021-06-23 15:49:31 发布

阅读量9.7k

点赞数

分类专栏： Web Linux 文章标签： css server windows unix 下载工具脚本

Linux 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

Web

6 篇文章 0 订阅

订阅专栏

wget是一款非常优秀的http/ftp下载工具，它功能强大，而且几乎所有的unix系统上都有。不过用它来dump比较现代的网站会有一个问题：不支持css文件，它不会自动下载、重新链接css中所指定的图片。这个问题导致的最常见的后果是dump下来的网站看不到背景图片。本文所介绍的这个脚本主要就是用来解决这个缺陷的。

这里简要介绍一下这个脚本的细节：

第3行用于设置要下载的网站的地址。
第10行用于将文件名转换为windows兼容的格式。windows对文件名格式的要求比unix更为苛刻一点，这里指定为windows也可以兼容unix系统。总的来说，wget的这个功能稍微弱了一点，面对一些更苛刻的系统就没有办法了。
第13行用于忽略robots.txt。很多网站的css、js文件都是在robots.txt中被定义为spider不可访问的。
第15、16行用于忽略某些目录和文件。因为没有了robots.txt的限制，wget可能会去访问一些不需要的东西。这里可以根据具体情况做限制。
第19～24行下载css中链接的文件。
第26～29行修正css中的链接。

以下是这个脚本的内容

#!/bin/sh
ADDR="http://www.EXAMPLE.com/"
SERVER=${ADDR#http://}
SERVER=${SERVER%%/*}
wget /
--html-extension /
--restrict-file-names=windows /
--convert-links /
--page-requisites /
--execute robots=off /
--mirror /
--exclude-directories /comment/reply/,/aggregator/,/user/ /
--reject "aggregator*" /
"$ADDR"
find $SERVER -type f -name "*.css" -exec cat {} /; |
grep -o 'url(/[^)]*)' |
sort |
uniq |
sed 's/^url(/(.*/))$/http:'$SERVER'/1/' |
wget --mirror --page-requisites -i -
for i in `find $SERVER -type f -name "*.css"`; do
PREFIX="$(echo $i | sed 's/[^//]*//g; s///$//; s../g')"
sed -i 's/url(///url('$PREFIX'/g' $i
done

cb_121

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
利用wget 抓取网站网页包括css背景图片

wget是一款非常优秀的http/ftp下载工具，它功能强大，而且几乎所有的unix系统上都有。不过用它来dump比较现代的网站会有一个问题：不支持css文件，它不会自动下载、重新链接css中所指定的图片。这个问题导致的最常见的后果是dump下来的网站看不到背景图片。本文所介绍的这个脚本主要就是用来解决这个缺陷的。这里简要介绍一下这个脚本的细节：第3行用于设置要下载的网站的地址。第
复制链接

扫一扫