Python 面试常见问题


一.项目问题:
 - 你写爬虫的时候都遇到过什么反爬虫措施
 - 
 - 你是怎样解决的
 - 
 - 用的什么框架。
 - 
 - 为什么选择这个框架

二.框架问题:
 - scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)
   
 - scrapy的去重原理(指纹去重到底是什么原理)
   
 - scrapy中间件有几种类,你用过哪些中间件
   
 - scrapy中间件在哪里起的作业(面向切片编程)

三.代理问题:
1. 为什么会用到代理

2. 代理怎么使用(具体代码, 请求在什么时候添加的代理)

3. 代理失效了怎么处理

四.验证码处理:
1. 登陆验证码处理

2. 爬取速度过快出现的验证码处理

3. 如何用机器识别验证码

五.模拟登陆问题:
模拟登陆流程

cookie如何处理

如何处理网站传参加密的情况

六.分布式:
分布式原理

分布式如何判断爬虫已经停止了

分布式的去重原理

七.数据存储和数据库问题:
关系型数据库和非关系型数据库的区别

爬下来数据你会选择什么存储方式,为什么

各种数据库支持的数据类型,和特点

是否支持事务...

八.Python基础问题:
基础问题非常多,但是因为爬虫性质,还是有些问的比较多的,下面总结:

Python2和Python3的区别,如何实现python2代码迁移到Python3环境

Python2和Python3的编码方式有什么差别

迭代器,生成器,装饰器

Python的数据类型

九.协议问题:
http协议,请求由什么组成,

每个字段分别有什么用,

https和http有什么差距

证书问题

TCP,UDP各种相关问题

十.数据提取问题:
主要使用什么样的结构化数据提取方式,

可能会写一两个例子

正则的使用

动态加载的数据如何提取

json数据如何提取

十一.算法问题:
算法:你们要善用Python的数据类型,

对Python的数据结构深入了解

在这里插入图片描述


Python WEB面试常见问题
一. python语法以及其他基础部分:
\*\*可变与不可变类型\*\*
浅拷贝与深拷贝的实现方式、区别;
deepcopy如果你来设计,如何实现

\*\*new() 与 init()的区别\*\*
你知道几种设计模式
编码和解码你了解过么
列表推导list comprehension和生成器的优劣
什么是装饰器;如果想在函数之后进行装饰,应该怎么做

\*\*手写个使用装饰器实现的单例模式\*\*
使用装饰器的单例和使用其他方法的单例,在后续使用中,有何区别
手写:正则邮箱地址
\*\*介绍下垃圾回收:引用计数/分代回收/孤立引用环\*\*


### 最后

> **🍅 硬核资料**:关注即可领取PPT模板、简历模板、行业经典书籍PDF。  
> **🍅 技术互助**:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。  
> **🍅 面试题库**:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。  
> **🍅 知识体系**:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值