Python干货:面试常见问题(爬虫与web篇)

本文汇总了Python爬虫与Web面试的常见问题,涵盖项目实践、框架选择、反爬策略、数据存储、算法基础等多个方面。从Scrapy框架的结构到数据库的选择,再到Python基础与网络协议,全面梳理面试要点。
摘要由CSDN通过智能技术生成

Python爬虫面试常见问题

一、项目问题:

1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎样解决的

2.用的什么框架。为什么选择这个框架

二、框架问题:

1.scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)

2.scrapy的去重原理(指纹去重到底是什么原理)

3.scrapy中间件有几种类,你用过哪些中间件

4.scrapy中间件在哪里起的作业(面向切片编程)

三、代理问题:

1.为什么会用到代理

2.代理怎么使用(具体代码, 请求在什么时候添加的代理)

3.代理失效了怎么处理

四、验证码处理:

1.登陆验证码处理

2.爬取速度过快出现的验证码处理

3.如何用机器识别验证码

五、模拟登陆问题:

1.模拟登陆流程

2.cookie如何处理

3.如何处理网站传参加密的情况

六、分布式:

1.分布式原理

2.分布式如何判断爬虫已经停止了

3.分布式的去重原理

七、数据存储和数据库问题:

1.关系型数据库和非关系型数据库的区别

2.爬下来数据你会选择什么存储方式,为什么

3.各种数据库支持的数据类型,和特点

八、Python基础问题:<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值