DNS、请求报文、响应报文,爬虫与反爬虫之间的斗争/目的,cookie和session的区别

 1.DNS
    DNS 域名解析服务 把域名转换换为ip地址再进行访问 DNS:114.114.114.114   8.8.8.8
2. 请求报文:
        请求行:请求方法,请求地址,协议版本
        请求头:User-Agent,Cookie,Host...
        空行
        请求数据
3. 响应报文:
        响应行:协议版本,状态码(200、302、404、403、500),状态语句
        响应头:Set-Cookie
        空行
        响应数据
4.(面试题)

                                                                    爬虫与反爬虫之间的斗争

   服务器(反爬)  编写爬虫代码,发起请求,接收响应,爬取数据 监控到某个时间段,访问量突然增大,并且发起请求的IP地址相同,对User-Agent字段判断在发起请求时,添加User-Agent字段,模仿用户代理   检测到某个ip访问速率过高,限制访问频率发起请求时,使用代理ip,或者设置请求间隔时间   需要登录之后才能查看数据注册网站账号,模拟cookie/token登录,发起请求    健全账号体系,只有相互的关注的好友才可以互相访问注册多个账号,进行爬虫    发现请求过于频繁,弹出验证码使用云打码平台进行验证        增加动态页面 比较重要的数据 使用js发起请求动态加载

1.抓取js请求,模拟发送

2.selenium+幽灵浏览器(phantomjs)完全模拟用户行为,操作网页

放弃               
5.爬虫目的:
    1.获取数据,填充公司的数据库,可以用来做测试数据,也可以直接使用
    2.通过爬虫爬取大量数据,用来制作搜索引擎
    3.通过爬虫爬取数据,做数据采集和数据分析的工作
    4.通过爬虫爬取数据,用于做训练模型,做人工智能机器人训练
6.反爬虫目的:
    1.针对一些初级爬虫,简单粗暴,会导致服务器瘫痪
    2.针对失控的爬虫,爬虫的数据量比较多,忘记关闭爬虫程序,同样会造成服务器压力过大
    3.防止同行爬取公司重要数据,防止同行恶意竞争
 7. cookie和session的区别
   cookie      sessoin
  1.cookie存储在浏览器/客户端    session存储在服务器

2.cookie不适合存储私密数据,不安全,可以通过手段获取

客户端保留的cookie信息

因为session是存储在服务器端的,相比较而言比cookie更加安全
3.cookie一般用来存储少量的数据,例如:登录状态/历史记录.. 因为session存储在服务器,所以存储数据的大小理论上没有限制

    cookie和session是共存亡的关系
    
    如果一个网站禁用了cookie,但是还可以保留登录状态,一般会在参数中携带一个sessionId的参数,用来跟踪会话,保留状态
 








  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值