分析项目,可行性分析,静态页面和动态页面,反爬,制定方案,请求库和提取库,
预估多长时间完成,共同的目标存储,让测试测试,异常处理,跟踪数据爬取,迁移给外部项目
应用软件在架构上分:(b/s,c/s)
事务:(原子性,一致性,隔离性,持久性)
主键:(具有唯一性)
状态码:(200成功,300重定向,4**客服端如404路径错误,403跨站台请求伪造,5**服务器错误)
get和post区别:
python:(解释性,面向对象,跨平台,动态语言)
爬虫流程:(页面爬取,数据提取,数据存储)
字符串格式化:(format,%)
闭包:
协成(自己控制切换时机,如yield)
死锁:
pass(占位符)
可变类型:(list,dict,set集合)不可变类型(整数,字符串,元组)
MVT(模型视图,渲染HTML页面)
requests如何设置代理IP()
三大数据库:
HTTP和HTTPS区别:
POST和GET区别:
生成器:
闭包:
元类:
函数重载解决的问题:
引用计数优缺点:
常见状态码:
字符串的格式化:
TCP和UDP区别:
主键和外键:
ORM:
数据库索引,数据类型,tcp和udp,闭包,
团队组成情况:
第三方外包
1.领导,2.爬虫工程师为主:多,3.测试,
4.爬虫部署:运维部门,搭建部署数据库环境
爬虫加上web:做一个APP网站
1.产品经理:负责整个项目,
2.美术设计师(即美工):PS可视化呈现,
3.前端设计师:设计前端页面,
4.服务器程序员:.后台开发,
5.测试人员测试:性能和压力测试等,
6.运维人员:搭建部署数据库环境
7.爬虫工程师:少,一两个左右
闭包:
索引:
乐观锁和悲观锁:
数据类型:
迭代器:
爬虫使用数据库:数据库主键和索引
数据库事务:
优化数据库:sql,
面向对象的基本特征:
方法重写
继承关系:子类与父类,
可变类型和不可变类型:
单例模式:确保每一个类中只有一个实例存在
GIL:
爬虫步骤:
网页爬虫库(responses,urliib)
数据库提取库(xpath,bs4,re)
GIL:
单例模式,
python自省,
类变量和实例变量,
迭代器和生成器,
状态码,
虚拟环境理解,
数据类型,
多态:提高代码的灵活性,
range方法,
UDP和TCP,
如何看待python语言,
你在上一家公司做过什么项目,开发团队,
爬虫措施,绕过反爬的措施
面向对象的基本特征
GIL:
方法重写:
单例模式:怎么实现
元类:
深拷贝,浅拷贝:
视图作用:
三种常用的排序算法:
鸭子类型:
类变量和实例变量:
python是什么,主要应用:
TCP和UDP
列表.reverse()
切片作用:
bs4四个类型:
mysql数据库搜索引擎:
反爬:
爬虫数据提取方式:
迭代器和生成器:
死锁产生的原因:
反爬虫和应对方法:
TCP和UDP的区别:
cooki和session区别:
数据库中视图的作用:
使用的数据库,redis数据类型:()
linux常见命令:
GET和POST的区别:
python的垃圾回收机制:
常见状态码:
类变量和实例变量的区别:
自己的三点缺点:
你的朋友如何评价你的:
匿名函数:
四次挥手:
爬虫步骤,爬虫分类:
python基础的数据结构:
协成:
处理死锁的基本方法:
赋值,浅拷贝,深拷贝:
乐观锁和悲观锁:
HTTP和HTTPS区别:
单例模式:
数据库引擎:
数据yield用法:
new和init区别:
加班:
5年规划:
常见的反爬措施和如何设置绕过反爬:
工作流程:
团队的组成情况:
猴子补定:
GIL:
字符串格式化:
死锁:
三次握手:
视图的作用:
bs4的对象类型:
如何看待996:
集合
tcp和udp区别:
鸭子类型:
面向对象特质:
分布式爬虫解决的问题:
浅拷贝,深拷贝:
常见的反爬虫和解决方法:
优化索引:
数据仓库:
cookies作用:
常见的反爬:
进程,线程,协成,:
反爬措施,解决办法:
cookies和session的区别:
数据仓库的了解:
如何看待996模式:
多进程爬取,多线程爬取区别:
造成死锁的原因和解决方法:
事务:
pep8代码规范:
线程安全:
爬虫分类:
如何滑动图片验证:
三次握手:
浅拷贝和深拷贝:
ORM技术:
cookies池的功能:管理多个账号的,模拟登录
避免
tcp
面向对象:
mvt:
linux命令:
闭包:
魔法方法:
类的方法:
迭代器和生成器:
get和post:
字符串格式化方式:
is和==:
常见反爬:
cookies池作用:
闭包:
生成器和迭代器:
mvt:
数据库引擎:
is和==:
死锁:
事务:
乐观锁和悲观锁:
鸭子类型:
协成:
垃圾回收:
get和post:
HTTP和https:
python三种拷贝:
python自省:
重载:
new和init:
read,readle...:
1解释下Http协议
2HTTP协观锁
4处理死议的主要特点可概括如下:
3 乐观锁和悲锁基本方法:
5协程
6请简要说明视图的作用
7四次挥手
8 三次握手
9 数据库索引
+++++++++++++++++++++++++++++1.面向对象的理解,基本特征:
2.Linux10个命令:
3.单例模式:用过python2和python3区别
4.爬虫步骤,分类:
5.用到的数据库:区别,事务,主键外键
6.反爬措施和绕过反爬的措施:
7.最近3年职业规划:
1.pep8代码规范:
2.python的垃圾回收机制:
用到的数据库:事务
3.虚拟环境理解:
4.爬虫用到的提取数据的方法:(bs4四个对象)
5.解释Selenium+PhantomJs:
6.你为什么从上一家公司辞职
代理ip池
验证码:tcp/ip协议:有四层,国际化七层
团队组成情况:
事务:
索引:
死锁产生的原因:
python自省:
闭包:
常见的反爬:
状态码:
生成器:
匿名函数:
协成:
迭代器:
垃圾回收机制:
cookies和session的区别:
scrapy框架组成:
scrapy怎么工作的:
scrapy制作的步骤:
进程,线程,协成:
三次握手
迭代器和生成器:
深浅拷贝:
匿名函数:
状态码:
get和post:
orm:
HTTP和HTTPS:
乐观锁:
线程,协成:
闭包:
数据类型:
反爬:
scrapy框架工作原理:
面向对象:
深拷贝浅拷贝:
协成:
反爬措施:
验证码:
迭代器和生成器:
状态码:
垃圾回收机制:
事务:
鸭子类型:
闭包:
tcp,udp:
scrapy组成部分:
乐观锁和悲观锁:
mvc:
如何反爬:
模拟登录有哪些:
scrapy框架工作原理:
上一家公司团队组织情况:
全局锁:
爬虫分类:
爬虫步骤:
mvc:
事务:
闭包:
协成:
元类:
死锁:
悲观锁和乐观锁:
鸭子类型:
scrapy
pipeline作用:
动态的更换代理ip:
之前做的项目:时间
爬了多少数据:
常用数据库:事务
垃圾回收机制:
队列,栈:
死锁:
cookies池:
进程,线程和协成:
=和is区别:
反爬措施:动态页面:
生成器和迭代器:
三次握手:
数据库引擎:
闭包:
scrapy框架工作原理:
scrapy如何使用代理ip:
深拷贝和浅拷贝:
匿名函数表达式:
事务:索引:优化:乐观锁和悲观锁:三大范式:tcp和udp的区别:数据类型:数据引擎:orm:爬虫种类:爬虫步骤:三次握手:生成器和迭代器:闭包:scrapy框架:常见反爬:scrapy和scrapy-redis区别: