爬虫开源工具GoPUP的介绍与使用

本文介绍了开源工具GoPUP的使用,包括安装、数据仓库选择,特别是针对百度搜索指数的爬取。在使用过程中,作者遇到了cookie语法错误和数据在Spyder中显示不全的问题,并给出了详细的解决方法。GoPUP的优点在于简洁的代码实现,但缺点是无法自定义爬取粒度。
摘要由CSDN通过智能技术生成
  1. 老师今天中午找我做一个任务: 爬虫+将爬到的数据可视化
  2. 老师指定我用 GoPUP 来获取数据,用 ECharts 来可视化成图表

一、 介绍
  1. GoPUP是GitHub中的一个开源工具,GoPUP项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。同时开发者指出本项目提供的数据接口及相关数据仅用于学术研究

  2. 项目地址为:https://github.com/justinzm/gopup。

  3. 此项目的核心思想:将各种数据接口做整合

二、使用方法(建议先浏览一遍文档)

使用方法很简单:先pip安装,再去文档中查找待爬取的数据仓库(接口API、相关属性等),最后获取数据

我使用的数据仓库为:百度搜索指数。所以详细介绍这个仓库的使用,其他仓库使用也很简单,直接看文档中的接口API即可。

具体需求为:爬取百度指数中 近十年 “铝” 这个关键词的搜索指数。

  1. 安装gopup:pip install gopup
  2. 在Anaconda Spyder 中输入爬虫代码:
import gopup as gp

cookie = 'BIDUPSID=31645A2D6B3E345D912F2D409B9F4473; PSTM=1617162454; BAIDUID=DD10994257CC1714887A6C499DC79B61:FG=1; BDUSS=RtdTVPSEhIeEFpcEVYRW1WZGQxMTFvMElYWEplQ0JuZnlRdUkzNWQwNlNzcEpnRVFBQUFBJCQAAAAAAAAAAAEAAAC0jBTozvvGqLXEv7zR0MK3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJIla2CSJWtgd2; BDUSS_BFESS=RtdTVPSEhIeEFpcEVYRW1WZGQxMTFvMElYWEplQ0JuZnlRdUkzNWQwNlNzcEpnRVFBQUFBJCQAAAAAAAAAAAEAAAC0jBTozvvGqLXEv7zR0MK3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJIla2CSJWtgd2; __yjs_duid=1_9e86b656b728c483c287648975d6b5221620119153
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值