【好用的工具】不用写代码就能爬虫的插件——Google Sheet的使用感受

翠花上酸菜

已于 2024-07-18 10:19:49 修改

阅读量365

点赞数 6

分类专栏：办公文章标签：爬虫数据库开发经验分享

于 2024-07-15 14:51:06 首次发布

本文链接：https://blog.csdn.net/meggie35/article/details/140374122

版权

10 篇文章 0 订阅

订阅专栏

“家人们，要爬虫——现在用一个电子表格就行了。”

最近看了个文章，谷歌的一款产品，直接用一个excel就可以干掉requests获取数据+存入表格的爬虫过程了，这让我学了那么久爬虫的我瑟瑟发抖。于是我就来试试这个传说中的产品。

具体产品：Google Sheet，谷歌的“Excel”

详细的做法，这里就不展示了，可以看上面的文章，我觉得它写的已经挺全的了。我分享一下使用的感受：

"谷歌Excel"的核心部分是ImportFromWeb的函数。我查看它的说明文档，发现主要是部分网站的爬取已经打包好了，其中不乏亚马逊、雅虎、油管、沃尔玛等。直接使用函数就可以获取想要的网页链接、标题、价格、产品参数……

然而，如果想要开发其他的网站和获取没有被打包的其他的参数，还是要自己编辑语句和找到元素的定位（xpath、css_selectors），定义的方法也不难：
最后的结果展示：

只能说，还是需要学点网页页面元素才比较好操作，但是确实是轻便化了，这个方法省去了请求响应和存入表格的过程。
优势：
网络爬取的最大问题是稳定的网络访问连接问题，如果数据量太大，或者访问太频繁，就会有封号的危险。那么这个importFromWeb怎么解决这个问题呢？
翻译出来就是：

高级代理，确保每次页面都能正确加载
由于该功能不能像人一样工作，在许多情况下，它可能需要代理服务器从不同的IP地址获取网页，以确保正确加载页面。这种机制称为代理轮换，是ImportFromWeb的最大功能之一。

说明这个其实已经实现了网络代理，至少保证了获取的稳定和防止数据量太大封IP的问题。

在使用的过程中，我觉得用的还是挺顺的。这个好东西适用于公开化的数据爬取，其他的问题暂时没有发现，待后期补充！

说明文档：https://nodatanobusiness.com/resources/importfromweb-about/

在这里插入图片描述

关注

专栏目录