【好用的工具】不用写代码就能爬虫的插件——Google Sheet的使用感受

“家人们,要爬虫——现在用一个电子表格就行了。”

最近看了个文章,谷歌的一款产品,直接用一个excel就可以干掉requests获取数据+存入表格的爬虫过程了,这让我学了那么久爬虫的我瑟瑟发抖。于是我就来试试这个传说中的产品。

具体产品:Google Sheet,谷歌的“Excel”

文章参考:
好强的谷歌“Excel”,不用自己写代码就能爬虫,网友立马cue微软:慌不慌?
在这里插入图片描述

详细的做法,这里就不展示了,可以看上面的文章,我觉得它写的已经挺全的了。我分享一下使用的感受:

  1. "谷歌Excel"的核心部分是ImportFromWeb的函数。我查看它的说明文档,发现主要是部分网站的爬取已经打包好了,其中不乏亚马逊、雅虎、油管、沃尔玛等。直接使用函数就可以获取想要的网页链接、标题、价格、产品参数……
    在这里插入图片描述
    然而,如果想要开发其他的网站和获取没有被打包的其他的参数,还是要自己编辑语句和找到元素的定位(xpath、css_selectors),定义的方法也不难:
    在这里插入图片描述最后的结果展示:
    在这里插入图片描述
    只能说,还是需要学点网页页面元素才比较好操作,但是确实是轻便化了,这个方法省去了请求响应和存入表格的过程。

  2. 优势:
    网络爬取的最大问题是稳定的网络访问连接问题,如果数据量太大,或者访问太频繁,就会有封号的危险。那么这个importFromWeb怎么解决这个问题呢?
    在这里插入图片描述翻译出来就是:

高级代理,确保每次页面都能正确加载
由于该功能不能像人一样工作,在许多情况下,它可能需要代理服务器从不同的IP地址获取网页,以确保正确加载页面。这种机制称为代理轮换,是ImportFromWeb的最大功能之一

说明这个其实已经实现了网络代理,至少保证了获取的稳定和防止数据量太大封IP的问题。

  1. 缺点:
    如果网站需要登录或者验证问题,这个方法是没法绕过的,还是需要登录才能完成。

在使用的过程中, 我觉得用的还是挺顺的。这个好东西适用于公开化的数据爬取,其他的问题暂时没有发现,待后期补充!

说明文档:https://nodatanobusiness.com/resources/importfromweb-about/

在这里插入图片描述

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值