爬虫之基础(自用)

爬虫分类

  • 通用网络爬虫:像百度,
  • 聚焦网络爬虫:针对特定的主题抓取,像我们自己写的
  • 增量式网络爬虫:只爬取新产生的或发生 变化的网页
  • 深层网络爬虫:只有用户提交一些关键词才能获得的web页面 例如 用户登录注册才能访问的页面

get和post

  • get:查询参数都会在URL上显示出来
  • post:查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来

User-Agent 用户代理

  • 可用作反爬
  • 作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果

Refer

  • 表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬的技术##

状态码

  • 200:请求成功
  • 301:永久重定向
  • 302:临时重定向
  • 403:服务器拒绝请求
  • 404请求失败(服务器无法根据客户端的请求找到资源(网页))
  • 500:服务器内部请求

抓包工具

  • Elements:网页源代码,提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
  • Console:控制台 (打印信息)
  • Sources:信息来源 (整个网站加载的文件)
  • NetWork : 网络工作(信息抓包) 能够看到很多的网页请求
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值