一.项目问题:
- 你写爬虫的时候都遇到过什么反爬虫措施
-
- 你是怎样解决的
-
- 用的什么框架。
-
- 为什么选择这个框架
二.框架问题:
- scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)
- scrapy的去重原理(指纹去重到底是什么原理)
- scrapy中间件有几种类,你用过哪些中间件
- scrapy中间件在哪里起的作业(面向切片编程)
三.代理问题:
1. 为什么会用到代理
2. 代理怎么使用(具体代码, 请求在什么时候添加的代理)
3. 代理失效了怎么处理
四.验证码处理:
1. 登陆验证码处理
2. 爬取速度过快出现的验证码处理
3. 如何用机器识别验证码
五.模拟登陆问题:
模拟登陆流程
cookie如何处理
如何处理网站传参加密的情况
六.分布式:
分布式原理
分布式如何判断爬虫已经停止了
分布式的去重原理
七.数据存储和数据库问题:
关系型数据库和非关系型数据库的区别
爬下来数据你会选择什么存储方式,为什么
各种数据库支持的数据类型,和特点
是否支持事务...
八.Python基础问题:
基础问题非常多,但是因为爬虫性质,还是有些问的比较多的,下面总结:
Python2和Python3的区别,如何实现python2代码迁移到Python3环境
Python2和Python3的编码方式有什么差别
迭代器,生成器,装饰器
Python的数据类型
九.协议问题:
http协议,请求由什么组成,
每个字段分别有什么用,
https和http有什么差距
证书问题
TCP,UDP各种相关问题
十.数据提取问题:
主要使用什么样的结构化数据提取方式,
可能会写一两个例子
正则的使用
动态加载的数据如何提取
json数据如何提取
十一.算法问题:
算法:你们要善用Python的数据类型,
对Python的数据结构深入了解
Python WEB面试常见问题
一. python语法以及其他基础部分:
\*\*可变与不可变类型\*\*
浅拷贝与深拷贝的实现方式、区别;
deepcopy如果你来设计,如何实现
\*\*new() 与 init()的区别\*\*
你知道几种设计模式
编码和解码你了解过么
列表推导list comprehension和生成器的优劣
什么是装饰器;如果想在函数之后进行装饰,应该怎么做
\*\*手写个使用装饰器实现的单例模式\*\*
使用装饰器的单例和使用其他方法的单例,在后续使用中,有何区别
手写:正则邮箱地址
\*\*介绍下垃圾回收:引用计数/分代回收/孤立引用环\*\*
### 最后
> **🍅 硬核资料**:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
> **🍅 技术互助**:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
> **🍅 面试题库**:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
> **🍅 知识体系**:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。