通过搜索引擎爬虫实现高效数据挖掘

搜索引擎会根据特定的策略,运用特定的计算机程序搜集互联网上的公开信息,再对收集到的信息进行组织和处理后展示给用户,而这些经过处理后公开展示的数据就是搜索引擎结果数据即SERP(Search Engine Results Page)。我们所说的搜索引擎爬虫,其实就是基于搜索引擎已经处理过的SERP数据的二次收集,以用于特定业务的分析。

1.搜索引擎爬虫突出的两个问题:

  • 主流搜索引擎都有严格的风控策略,如Google验证码,解决难度极高,技术上需要特殊处理

  • 会拒绝访问密集的请求,技术上需要特殊处理,同时需要大量IP池资源

2.传统搜索引擎采集的方案:

传统的爬虫方案是使用不同地区的IP构建代理IP池或者购买第三方代理IP池,然后开发主流搜索引擎采集程序调用代理IP池进行采集,大规模采集的话需要定制化开发处理平台的风控策略,如封IP、指纹识别、验证码等。当然优点是简单直接、成本低、可定制化爬虫需求,适合小规模、简单数据分析场景。

但是在规模化爬虫场景下弊端也非常明显:

  • 工作量大,搜索引擎众多且每个搜索引擎有多个板块,每个板块都需要开发采集程序,写大量解析规则

  • 自建IP池或者低质量代理IP,稳定性和数量不能很好保障,在反爬虫机制下IP资源会持续消耗,从而影响速度和数据的准确性

  • 需要高级工程师开发相关风控模块,主流搜索引擎都有严格的风控策略,如Google验证码,解决难度极高

3.SERP采集方案

最近SERP数据采集使用的是亮数据Bright Data研发的针对搜索引擎的采集产品,功能和亮点总结如下:

  • 支持采集市面上主流的搜索引擎数据:Google、Bing、Yandex、DuckDuckGo等

  • 上手方便,可自定义搜索参数,如页码、语言、定位、搜索类型等

  • 支持搜索引擎常用板块的自动解析,无需编写大量采集程序和解析规则,支持采集不同板块的数据,如:关键字搜索、图片、购物、新闻、酒店、视频等

  • 集成亮数据Bright Data全球网络代理,无需单独购买IP(就速度和结果来看,号称超7200万合法合规IP覆盖195个国家还是名副其实的)

  • 集成自家研发的解锁技术,可以解决搜索引擎风控问题,摆脱网站反爬取限制,无需单独编写反爬虫程序模块

缺点

  • 采集成本相比传统代理较高(个人爬着玩的就不划算了)

  • 产品普适性高,受限于产品的解析模板,复杂型定制化采集建议使用Web Scraper IDE(也是他家的产品)

此产品的开发目标是快速便捷大规模采集搜索引擎网页数据并与自家其他产品进行集成,对于定制化程度较高较复杂的产品,建议使用亮数据Bright Data 数据采集器(Web Scraper IDE)进行自定义采集,这个是通过低代码框架定制化开发,不需要考虑服务器基础设施、代理IP池,上手快,和SERP的解锁能力一样。简言之,相较于传统搜索引擎采集方案,亮数据Bright Data的SERP产品更为智能,可以便捷高效的获取搜索引擎数据,虽然成本比传统代理高,但人工成本和时间成本却大大降低了。有大规模采集需求的推荐一试。

4.工作原理

  • 客户端程序将搜索的url传给SERP API

  • SERP系统根据传入的url,自动识别请求的搜索引擎,并通过代理、解锁器等技术解析和获取目标搜索引擎页面的数据

  • SERP系统将解析好的数据以HTML/JSON格式传回给客户端

从获取数据的整个过程可以看出,客户端只关心获取哪些业务数据,无需操心任何风控,全权交由亮数据Bright Data智能系统解决,极为方便。

5.基本使用

注册Bright Data账号直接官网登录,不需要下载。在控制面板代理通道创建搜索引擎爬虫通道,添加IP白名单,之后就可以指令模拟。(很简单,上去大概看一下就能明白)

在指令模拟页面我们可以很方便的进行SERP API调试,获取我们需要的API参数和效果预览。可以看到当我们设置参数时,底下会自动生成多种语言的API代码,还可以尝试请求获取实时数据,方便我们将SERP API集成到我们的应用程序。

6.采集测试

接下来我将用一个采集案例来展示SERP完整的使用过程以及如何将SERP API集成到我们的采集程序。该案例是:使用Python Scrapy集成SERP API采集Google购物板块电商商品数据,并将json数据存入mongodb。

1.SERP API调试

还是在指令模拟页面调试API,获取我们需要的目标API。

搜索引擎选择Google,且搜索类型选择购物:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值