利用wget命令实现爬虫的简单抓取

wget命令相信很多人并不陌生,但是绝大多数仅仅是利用它下载文件使用。其实它还有个作用,就是爬取数据。

它虽然不如Python,Java手写代码那么灵活,但是对于需求简单的,用这个足够了。

话不多说,首先上抓取命令(以抓取博客园为例):

wget -o /tmp/wget.log -P /root/data  --no-parent --no-verbose -m -D www.cnblogs.com   -N --convert-links --random-wait -A html,HTML,shtml,SHTML https://www.cnblogs.com/

上面命令直接在linux执行,就能实现抓取。

参数解释:

-o:存放日志路径。

-P:存放数据目录。

--no-parent: 不追溯至父目录。

--no-verbose:关闭详尽输出,但不进入安静模式。

-m:-N -r -l inf --no-remove-listing 的缩写形式。

-D:逗号分隔的可接受的域列表。

-N:只获取比本地文件新的文件。

--convert-links:让下载得到的 HTML 或 CSS 中的链接指向本地文件。

--random-wait:随机等待时间。

-A:逗号分隔的可接受的扩展名列表。

这里仅仅列出了上面用到的命令,其它的wget命令可以使用wget --help来查看。

最后放下抓取效果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值