Google-Spyder:Google搜索引擎关键词检索结果抓取

Google搜索引擎关键词检索结果抓取

程序功能

  • 支持配置文件设置
  • 支持分时间段抓取
  • 支持自定义关键词抓取
  • 支持随机切换Google域名
  • 支持爬取结果过程日志记录
  • 支持爬取结果写入CSV或数据库

数据字段

  • title:标题信息
  • caption_cite:二级链接
  • caption_time:发布时间
  • caption_p:摘要信息

数据字段以列表形式存储,长度应一致,某一字段不存在则为None。

运行记录

[~] Read configuration file

[+] Read complete

Page1:https://www.google.pn/search?hl=en&q=Confucius+Institute&tbs=cdr:1,cd_min%3A7/28/2022,cd_max:7/19/2022&start=0

title:9		caption_cite:9		caption_time:9		caption_p:9

......

 Page17:https://www.google.it/search?hl=en&q=Confucius+Institute&tbs=cdr:1,cd_min%3A7/28/2022,cd_max:7/19/2022&start=160

 title:158		caption_cite:158		caption_time:158		caption_p:158

-----------------------------------------------------------------------------------------------

------Stored in the database------

------End------

常见报错

  • 网页获取错误
    • 网页源代码无法获取,或者出现Connect链接问题报错
  • 网页解析错误
    • 数据字段长度不一致,写入文件时报错

解决方案

  • 可能是谷歌网页大量爬取后需要人机验证,可以点击抓取失败的当前链接查看
  • 更换代理:可以更换ip+端口(使用代理池),或者更换代理的节点(一般换节点就能解决)

程序演示

程序演示
【项目地址】

关于博主

知乎:南浔Pyer
CSDN:南浔Pyer
个人网站:DL小站
GitHub:LeonWang91
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南浔Pyer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值