DNS、请求报文、响应报文，爬虫与反爬虫之间的斗争/目的，cookie和session的区别

本文链接：https://blog.csdn.net/guifei010/article/details/79444238

1.DNS
    DNS 域名解析服务把域名转换换为ip地址再进行访问 DNS：114.114.114.114   8.8.8.8
2. 请求报文：
        请求行：请求方法，请求地址，协议版本
        请求头：User-Agent,Cookie,Host...
        空行
        请求数据
3. 响应报文：
        响应行：协议版本，状态码（200、302、404、403、500），状态语句
        响应头：Set-Cookie
        空行
        响应数据
4.(面试题)

爬虫与反爬虫之间的斗争

服务器（反爬）编写爬虫代码，发起请求，接收响应，爬取数据监控到某个时间段，访问量突然增大，并且发起请求的IP地址相同，对User-Agent字段判断在发起请求时，添加User-Agent字段，模仿用户代理检测到某个ip访问速率过高，限制访问频率发起请求时，使用代理ip，或者设置请求间隔时间需要登录之后才能查看数据注册网站账号，模拟cookie/token登录，发起请求健全账号体系，只有相互的关注的好友才可以互相访问注册多个账号，进行爬虫发现请求过于频繁，弹出验证码使用云打码平台进行验证增加动态页面比较重要的数据使用js发起请求动态加载

1.抓取js请求，模拟发送

2.selenium+幽灵浏览器(phantomjs)完全模拟用户行为,操作网页

放弃
5.爬虫目的：
    1.获取数据，填充公司的数据库，可以用来做测试数据，也可以直接使用
    2.通过爬虫爬取大量数据，用来制作搜索引擎
    3.通过爬虫爬取数据，做数据采集和数据分析的工作
    4.通过爬虫爬取数据，用于做训练模型，做人工智能机器人训练
6.反爬虫目的：
    1.针对一些初级爬虫，简单粗暴，会导致服务器瘫痪
    2.针对失控的爬虫，爬虫的数据量比较多，忘记关闭爬虫程序，同样会造成服务器压力过大
    3.防止同行爬取公司重要数据，防止同行恶意竞争
7. cookie和session的区别

cookie	sessoin
1.cookie存储在浏览器/客户端	session存储在服务器
2.cookie不适合存储私密数据，不安全,可以通过手段获取客户端保留的cookie信息	因为session是存储在服务器端的，相比较而言比cookie更加安全
3.cookie一般用来存储少量的数据,例如:登录状态/历史记录..	因为session存储在服务器，所以存储数据的大小理论上没有限制