问:如何分布式?
错误的回答:使用scrapy-redis分发待爬队列
正确的回答:指定单个微博cookie给单个进程,再把user_id%len(cookie)==cookie_id的用户指定给这个进程来爬取:
while user_idx < len(user_list):
user = user_list[user_idx)
...
user_idx += len(cookie)
然后多开。
…………
问:如何多IP?
错误的回答:使用代理,一旦HTTPERROR 418就换下一个,下一个更乖
正确的回答:在手机上下载一个自动执行动作的app:
用来每30秒开关一次手机4G: