URL组成部分及爬虫相关的几个实用概念

1 URL组成部分

URL=协议+IP地址+端口+资源访问路径+锚点(其中资源访问路径和锚点都由十六进制编码构成)

2 爬虫时需要关注的两个概念

2.1 refere


即refere代表指向首页,而我们通常搜索网页时需要进入首页才能进入下一个页面,这就需要我们为了不被防爬而多数时必须要注意的一个概念

2.2 User-Agent用户代理

作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果

3 状态码

  • 200 请求成功
  • 301 永久重定向
  • 302 临时重定向
  • 403 服务器拒绝访问
  • 404 访问失败
  • 500 服务器内部访问

4 抓包工具

我们一般使用对开发者较为友好的Goole和火狐浏览器自带的抓包工具
常用工具如下

  • Element:源代码
  • Console:控制台
  • Sources:信息源
  • Network:网络请求信息
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值