抓取Web of Science经验分享

clf63082

于 2018-07-26 17:45:39 发布

阅读量6.3k

点赞数 3

文章标签：爬虫 python 运维

本文原创作者：鲲之鹏（http://www.site-digger.com）

本文原始链接：http://www.site-digger.com/html/articles/20180415/141.html

受新加坡某科研机构委托，需要对国内469所高校，156个学科，25年内在 www.webofscience.com 中的“引文报告”（如下图示例）数据进行采集。检索次数超180万次。

该网站“需要登陆，并且会封账号”，具有很强的典型性，特对本网站的采集经验分享如下：

1. Web of Science必须登陆才能检索，而且同一个账号不能重复登陆，新的登陆会造成同一账号老的会话失效。

2. 同一账号的会话可以多线程使用，不会互相干扰检索结果。

3. 账号可能会被封，被封之后会提示“您帐户的 "漫游" 功能已被禁用”（如下图所示）。这个可能是Web of Science运维人工干预的，在我们的测试过程中，在相同的访问频率下，有的账号只能搜索一两万次就被封了，而有的却能搜索十几万次。在爬虫中我们加入了自动切换账号的功能，如果检测到账号被封则自动换用下一个账号，不需要人工介入。我们总共进行了超过180次的搜索，总共使用了25个账号。

4. 账号每日访问次数有限制，超过之后会提示“Server.IDLimit”之类错误（如下图所示），如果检测到账号被封则自动换用下一个账号，也不需要人工介入。

5. Cookie会不停的变动，每次查询网站都会返回新的Cookie，不能持续的使用老的Cookie（有时效性），否则一段时间后会出现Timeout问题。我们一开始以为是代理的问题，后来经过多次验证是因为Cookie变化了造成的，应该是触发了WAF的防护策略。在我们的爬虫中，如果连续检测到多次出现Timeout问题，爬虫自动重新登陆，即可恢复正常。

6. 每搜索满200次系统会提示“记录本次会话中所有检索的“检索历史” 列表已满”，造成检索失败。所以爬虫中需要每隔200次清空一下搜索结果。

7. 会出现搜索失败的情况，爬虫需要进行重试直至成功。

8. 可以不使用代理IP，我们采集的过程中未发现该系统对IP访问频率有限制。

9. 为了不对系统造成过重负担（Richard曾说过在采集别人网站的时候要心怀感恩），我们爬虫仅使用了5个线程。进行180万搜索，共耗时约20天。

10. 由于搜索需要大量时间，爬虫使用了缓存机制，防止客户修改字段后需要二次下载。

说明：该文章为鲲之鹏（http://www.site-digger.com）原创文章，您除了可以发表评论外，还可以转载到别的网站，但是请保留源地址，谢谢!!（尊重他人劳动，我们共同努力）

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/30303165/viewspace-2168453/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/30303165/viewspace-2168453/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。