小白也会用爬虫利器:you-get,让天下没有难爬的网页

 阅读文本大概需要 2.666 分钟。

今天给大家介绍一款爬虫利器,小白也可以拿来即用的利器:you-get。

You-Get 是一个 Python 编写的命令行下载器,用于从 Web 下载媒体内容(视频,音频,图像)。这个程序在 GitHub 上已有 2 万多的 Star。

you-get 能做什么?

  • 从热门网站下载视频/音频,例如 YouTube,bilibili,斗鱼等等。

  • 在媒体播放器中或者浏览器中播放视频,没有广告。

  • 通过抓取网页下载图片。

  • 下载任意非 HTML 内容,即二进制文件。

you-get 安装:

首先确保你安装了 Python 环境,然后可以通过 pip 命令安装 you-get。

pip install you-get

you-get 升级

可以通过以下方式升级 you-get。

pip install --upgrade you-get

设置下载文件的路径和名称

使用 --output-dir/ -o 选项设置路径,和 --output-filename/ -O 设置下载文件的名称。

微博上有个纪念澳门回归的秒拍视频,我设置好保存路径和名称后会直接下载保存。(左右滑动查看所有代码)

you-get -o E:\youget -O macao http://n.miaopai.com/media/N4vmrRKzpcV5k80IbXlO8BuGCNmwkFvf

这样就会把视频保存在你刚定义的目录中,如果不添加路径参数的话视频会默认保存在你输入命令时的当前路径。

浏览器观看视频

如果您希望在浏览器中直接观看视频,而且是没有广告或评论部分,使用 -p 后面加上浏览器名称,比如我加的是 chrome,视频可以放大播放。

you-get -p chrome http://n.miaopai.com/media/N4vmrRKzpcV5k80IbXlO8BuGCNmwkFvf

下载图片

我要下载 pixabay 网站上一张单张图片,使用如下命令:

you-get https://pixabay.com/en/landscape-volcano-central-java-3779159/

用这个命令会下载 3 张不同大小的图片到你当前目录下,1 张略缩图,2 张高清大图,可以根据自己需求选择使用。

移动端

刚才说的都是 Web 网页,其实你还可以操作移动端、APP、H5,移动端的反爬措施一般比较少,感兴趣的自己去试试吧。

支持的网站

目前支持的网站有 100 种之多,包括我们经常用的网易视频、网易云音乐、b 站、百度贴吧、豆瓣、斗鱼、优酷、抖音等等,还包括国外的 YouTube、Instagram、Facebook 等网站,所有支持的网站列表可点击「阅读原文」查看。

想了解 you-get 更多功能请移步 GitHub:

https://github.com/soimort/you-get

「pk哥」以梦为马,不负韶华

长按识别二维码关注

觉得不错,点赞、赞赏、转发都是一种支持。

推荐阅读:

一行代码能实现什么丧心病狂的功能?

介绍一款反爬虫页面的爬虫利器 Puppeteer

凌晨三点,你手机上的APP在自动签到

换种方式写脚本,10倍提高你的工作效率

用Django框架快速搭建博客

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值