最近因科研原因,需要爬取google trends中有关Bitcoin的数据,于是开启了为期三天的艰难探索。过程虽然艰难,但结果是好的。下面将整个过程的收获记录如下。当然,这一切的前提是先连接上一台位于国外的远程服务器,所以假设看到这篇文章的小伙伴都已经连接上了远程服务器。
文章目录
Google Trends爬虫
方案一:用本地计算机爬虫(fail)
当电脑能够正常使用Google后,我首先想到的是像之前爬虫一样,在Pycharm中编辑代码,然后在本地计算机上运行。
但随后就出现了问题。不论是用Pycharm还是Jupyter Notebook,无论如何也无法请求获取Google Trends的页面,总是报错。找了很多帖子,都没有得到解决(如果看到这篇文章的小伙伴能够指导一下,将非常感谢)
一段时间尝试后,准备另辟蹊径。既然本地计算机上外网的原理是,让能够上外网的远程服务器获取资源,然后再传给本地计算机,我也能远程操控远程服务器,那为什么不直接在远程服务器上爬虫呢,然后就有了方案二。
方案二:用远程服务器爬虫(success)
下载python
CentOS系统是自带Python2的,但是由于现在普遍使用Python3,