1.DNS
DNS 域名解析服务 把域名转换换为ip地址再进行访问 DNS:114.114.114.114 8.8.8.8
2. 请求报文:
请求行:请求方法,请求地址,协议版本
请求头:User-Agent,Cookie,Host...
空行
请求数据
3. 响应报文:
响应行:协议版本,状态码(200、302、404、403、500),状态语句
响应头:Set-Cookie
空行
响应数据
4.(面试题)
5.爬虫目的:
1.获取数据,填充公司的数据库,可以用来做测试数据,也可以直接使用
2.通过爬虫爬取大量数据,用来制作搜索引擎
3.通过爬虫爬取数据,做数据采集和数据分析的工作
4.通过爬虫爬取数据,用于做训练模型,做人工智能机器人训练
6.反爬虫目的:
1.针对一些初级爬虫,简单粗暴,会导致服务器瘫痪
2.针对失控的爬虫,爬虫的数据量比较多,忘记关闭爬虫程序,同样会造成服务器压力过大
3.防止同行爬取公司重要数据,防止同行恶意竞争
7. cookie和session的区别
cookie和session是共存亡的关系
如果一个网站禁用了cookie,但是还可以保留登录状态,一般会在参数中携带一个sessionId的参数,用来跟踪会话,保留状态
DNS 域名解析服务 把域名转换换为ip地址再进行访问 DNS:114.114.114.114 8.8.8.8
2. 请求报文:
请求行:请求方法,请求地址,协议版本
请求头:User-Agent,Cookie,Host...
空行
请求数据
3. 响应报文:
响应行:协议版本,状态码(200、302、404、403、500),状态语句
响应头:Set-Cookie
空行
响应数据
4.(面试题)
爬虫与反爬虫之间的斗争
服务器(反爬) 编写爬虫代码,发起请求,接收响应,爬取数据 监控到某个时间段,访问量突然增大,并且发起请求的IP地址相同,对User-Agent字段判断在发起请求时,添加User-Agent字段,模仿用户代理 检测到某个ip访问速率过高,限制访问频率发起请求时,使用代理ip,或者设置请求间隔时间 需要登录之后才能查看数据注册网站账号,模拟cookie/token登录,发起请求 健全账号体系,只有相互的关注的好友才可以互相访问注册多个账号,进行爬虫 发现请求过于频繁,弹出验证码使用云打码平台进行验证 增加动态页面 比较重要的数据 使用js发起请求动态加载 1.抓取js请求,模拟发送
2.selenium+幽灵浏览器(phantomjs)完全模拟用户行为,操作网页
放弃5.爬虫目的:
1.获取数据,填充公司的数据库,可以用来做测试数据,也可以直接使用
2.通过爬虫爬取大量数据,用来制作搜索引擎
3.通过爬虫爬取数据,做数据采集和数据分析的工作
4.通过爬虫爬取数据,用于做训练模型,做人工智能机器人训练
6.反爬虫目的:
1.针对一些初级爬虫,简单粗暴,会导致服务器瘫痪
2.针对失控的爬虫,爬虫的数据量比较多,忘记关闭爬虫程序,同样会造成服务器压力过大
3.防止同行爬取公司重要数据,防止同行恶意竞争
7. cookie和session的区别
cookie | sessoin |
1.cookie存储在浏览器/客户端 | session存储在服务器 |
2.cookie不适合存储私密数据,不安全,可以通过手段获取 客户端保留的cookie信息 | 因为session是存储在服务器端的,相比较而言比cookie更加安全 |
3.cookie一般用来存储少量的数据,例如:登录状态/历史记录.. | 因为session存储在服务器,所以存储数据的大小理论上没有限制 |
cookie和session是共存亡的关系
如果一个网站禁用了cookie,但是还可以保留登录状态,一般会在参数中携带一个sessionId的参数,用来跟踪会话,保留状态