这次爬虫中遇到的问题主要是分页爬取时无法正确获取目标页面的html,会跳至获取首页的html,导致只能爬取部分页面的数据,不能得到完整的100条数据。网上查询的方法就是设置headers伪装浏览器或者多线程爬取,但都解决不了问题。经过一段时间的尝试,终于发现了解决方法:需要设置cookie,把cookie添加进headers就可以防止页面跳转,正确获取目标页面的html
猫眼top100爬虫遇到的问题
最新推荐文章于 2024-09-27 16:41:19 发布
这次爬虫中遇到的问题主要是分页爬取时无法正确获取目标页面的html,会跳至获取首页的html,导致只能爬取部分页面的数据,不能得到完整的100条数据。网上查询的方法就是设置headers伪装浏览器或者多线程爬取,但都解决不了问题。经过一段时间的尝试,终于发现了解决方法:需要设置cookie,把cookie添加进headers就可以防止页面跳转,正确获取目标页面的html