“家人们,要爬虫——现在用一个电子表格就行了。”
最近看了个文章,谷歌的一款产品,直接用一个excel就可以干掉requests获取数据+存入表格的爬虫过程了,这让我学了那么久爬虫的我瑟瑟发抖。于是我就来试试这个传说中的产品。
具体产品:Google Sheet,谷歌的“Excel”
文章参考:
好强的谷歌“Excel”,不用自己写代码就能爬虫,网友立马cue微软:慌不慌?
详细的做法,这里就不展示了,可以看上面的文章,我觉得它写的已经挺全的了。我分享一下使用的感受:
-
"谷歌Excel"的核心部分是
ImportFromWeb
的函数。我查看它的说明文档,发现主要是部分网站的爬取已经打包好了,其中不乏亚马逊、雅虎、油管、沃尔玛等。直接使用函数就可以获取想要的网页链接、标题、价格、产品参数……
然而,如果想要开发其他的网站和获取没有被打包的其他的参数,还是要自己编辑语句和找到元素的定位(xpath、css_selectors),定义的方法也不难:
最后的结果展示:
只能说,还是需要学点网页页面元素才比较好操作,但是确实是轻便化了,这个方法省去了请求响应和存入表格的过程。 -
优势:
网络爬取的最大问题是稳定的网络访问连接问题,如果数据量太大,或者访问太频繁,就会有封号的危险。那么这个importFromWeb
怎么解决这个问题呢?
翻译出来就是:
高级代理,确保每次页面都能正确加载
由于该功能不能像人一样工作,在许多情况下,它可能需要代理服务器从不同的IP地址获取网页,以确保正确加载页面。这种机制称为代理轮换,是ImportFromWeb的最大功能之一。
说明这个其实已经实现了网络代理,至少保证了获取的稳定和防止数据量太大封IP的问题。
- 缺点:
如果网站需要登录或者验证问题,这个方法是没法绕过的,还是需要登录才能完成。
在使用的过程中, 我觉得用的还是挺顺的。这个好东西适用于公开化的数据爬取,其他的问题暂时没有发现,待后期补充!
说明文档:https://nodatanobusiness.com/resources/importfromweb-about/