爬取大众点评数据,使用多线程处理。
使用多线程爬取的目的是两个,
一个是 多线程运行起来快。
第二则是 一个人访问的URL通过多线程的缘故变得杂乱无章,这样不容易被发爬机制 确定。
from concurrent.futures import ThreadPoolExecutor
通过引入 ThreadPoolExecutor 完成多线程操作,
第二,爬取的过程中,每次爬取一个URL的内容后就 time.sleep(random.randint(0,4))
休眠0~4秒的随机数,这样访问的频率不那么高,就不容易被反派机制发现,被封锁IP了