如何安装和使用webhttrack

为了全部爬取一个网站,首先想到的是使用wget,但是爬下来的网站有个问题,那就是在看的时候所有超链接没有发生变化,所以考虑着使用一种功能更为强大的工具来抓取网页。那么,搜一下就会发现webhttrack应该是用的非常多的一款工具。

  1. 安装
    安装过程非常简单,在ubuntu下使用下面的命令即可完成安装:
sudo apt-get install httrack webhttrack
  1. 运行
    直接在命令行中打开webhttrack,会提示“权限不够”的错误。

接下来使用sudo来执行,结果出现了“–no-sandbox”的错误。

原来这个问题是跟浏览器相关,因为我系统中默认的浏览器使用的是chrome,而且在运行chrome的时候,必须要使用“–no-sandbox”,所以,需要使用firefox浏览器来解决这个问题。

编辑/usr/bin/webhttrack,同时设置

BROWSEREXE="firefox"

并且注释掉SRCHBROWSEREXE。然后,就可以看到:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值