Shell 命令行实现将一个站点页面全部下载到本地并替换其中链接的脚本

最新推荐文章于 2022-11-08 17:02:09 发布

FungLeo

最新推荐文章于 2022-11-08 17:02:09 发布

阅读量4.1k

点赞数 3

分类专栏： Linux\CentOS FungLeo的前端笔记黑苹果&前端工程师文章标签： shell 脚本 curl wget

本文链接：https://blog.csdn.net/fungleo/article/details/76685839

版权

FungLeo的前端笔记同时被 3 个专栏收录

240 篇文章 88 订阅

订阅专栏

Linux\CentOS

69 篇文章 3 订阅

订阅专栏

黑苹果&前端工程师

43 篇文章 79 订阅

订阅专栏

Shell 命令行实现将一个站点页面全部下载到本地并替换其中链接的脚本

不知道为什么，我总想用 Shell 脚本来实现把一个站点内容给下载下来。但是下载什么站点我确不知道。今天尝试了一下利用 curl 实现了下载一个站点列表的 demo 算是小试牛刀。

当脚本成功之后，我知道，要把这个站点完全下载下来也是没有问题的。不过是需要更加复杂的循环和匹配而已。

接下来有工作要做，所以 shell 的学习暂时先告一段落。

实现代码

#!/bin/bash
echo '--开始下载首页--'
curl -s 'http://man.linuxde.net/par/5' > ./html/index.html
mh=./html/index.html
sl=$(nl $mh | grep '<div class="list_bd clearfix">' | head -1 | sed 's/^[    ]*//g' | cut -d ' ' -f1)
el=$(nl $mh | grep "<div class='paging'>" | head -1 | sed 's/^[  ]*//g' | cut -d ' ' -f1)
sed -n  "$sl","$el"'p' $mh > main.htm

echo '--开始下载内页--'
#<a href="
while read line; do
  url=$(echo $line | grep '<a href="' | sed 's/<div class="name"><a href="//g' | cut -d '"' -f1)
  if [[ -n $url ]]; then
    echo '--开始下载' $name '页面--'
    name=$(echo $url | cut -d '/' -f4)
    html='./html/'$name'.html'
    curl -s $url > $html
    # echo '--开始处理' $name '页面链接--'
    # sed -i 's/http:\/\/man\.linuxde\.net\//g' $html
  fi
done < main.htm

echo '--页面下载完成--'
echo '--处理页面链接--'

sed -i '' 's/http:\/\/man\.linuxde\.net\///g' $(grep -rl 'http://man.linuxde.net' ./html)
sed -i '' 's/" title="/\.html" title="/g' $(grep -rl '" title="' ./html)
echo '--链接处理完成--'

实现原理

先下载列表首页。我这里只是尝试，所以只下载了第一页。如果要下载多页，做好循环之后，自动下载就是。
截取页面的列表内容区域。
根据页面特点，拆解出页面链接。
循环下载链接并保存。
批量替换页面的链接不合适的地方。

然后就大功告成了。

不过 wget 比 curl 可能更适合干这个工作。我目前还没有学到很深入。回头有时间再接着研究一下。

后续补充

看了下 wget 我气炸了。原来我要下载人家网站全站，用 wget 一句命令就可以搞定了 -_-|||

wget --mirror -p --convert-links -P ./ http://man.linuxde.net/

神奇的 shell ！

以上脚本均在 mac 下测试通过，在 Linux 下可能会有稍许不同。
本文由 FungLeo 原创，允许转载，但转载必须保留首发链接。

FungLeo

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
5
评论
Shell 命令行实现将一个站点页面全部下载到本地并替换其中链接的脚本

Shell 命令行实现将一个站点页面全部下载到本地并替换其中链接的脚本不知道为什么，我总想用 Shell 脚本来实现把一个站点内容给下载下来。但是下载什么站点我确不知道。今天尝试了一下利用 curl 实现了下载一个站点列表的 demo 算是小试牛刀。当脚本成功之后，我知道，要把这个站点完全下载下来也是没有问题的。不过是需要更加复杂的循环和匹配而已。接下来有工作要做，所以 shell 的学习暂时先告一
复制链接

扫一扫