Python爬虫面试常见问题
一、项目问题:
1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎样解决的
2.用的什么框架。为什么选择这个框架
二、框架问题:
1.scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)
2.scrapy的去重原理(指纹去重到底是什么原理)
3.scrapy中间件有几种类,你用过哪些中间件
4.scrapy中间件在哪里起的作业(面向切片编程)
三、代理问题:
1.为什么会用到代理
2.代理怎么使用(具体代码, 请求在什么时候添加的代理)
3.代理失效了怎么处理
四、验证码处理:
1.登陆验证码处理
2.爬取速度过快出现的验证码处理
3.如何用机器识别验证码
五、模拟登陆问题:
1.模拟登陆流程
2.cookie如何处理
3.如何处理网站传参加密的情况
六、分布式:
1.分布式原理
2.分布式如何判断爬虫已经停止了
3.分布式的去重原理
七、数据存储和数据库问题:
1.关系型数据库和非关系型数据库的区别
2.爬下来数据你会选择什么存储方式,为什么
3.各种数据库支持的数据类型,和特点
八、Python基础问题:<