linux中使用wget模拟爬虫抓取网页

最新推荐文章于 2023-01-17 09:58:18 发布

weixin_30596343

最新推荐文章于 2023-01-17 09:58:18 发布

阅读量272

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/fusheng11711/p/10906435.html

版权

如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢，常规的我们肯定是要去下载一个软件下来使用啦，可怜的这两个系统总是找不到相应的工具，这时wget出来帮助你啦!!!wget本身是拿来下载东西的，但远不止那么简单,wget是一把强大利器。

wget -c -r -npH -k http://www.baidu.com

参数说明

-c：断点续传
-r：递归下载
-np：递归下载时不搜索上层目录
-nd：递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中
-p：下载网页所需要的所有文件(图片,样式,js文件等)
-H：当递归时是转到外部主机下载图片或链接
-k：将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了
ls

然后生成了index.html文件

将index.html移动到/var/www/html/

需要提前安装httpd服务并关闭防火墙

然后打开浏览器输入目标IP

转载于:https://www.cnblogs.com/fusheng11711/p/10906435.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30596343

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux中使用wget模拟爬虫抓取网页

如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢，常规的我们肯定是要去下载一个软件下来使用啦，可怜的这两个系统总是找不到相应的工具，这时wget出来帮助你啦!!!wget本身是拿来下载东西的，但远不止那么简单,wget是一把强大利器。wget -c -r -npH -k http://www.baidu.com　　参数说明-c：断点续传 -r：递归...
复制链接

扫一扫