我的第一个博客

访问网站步骤

第一步客户端向浏览器中输入url后按回车,客户端向服务器发送一个 http请求,请求包括get和post请求。
第二步输入url后浏览器向服务器发送一个request请求,之后服务器向浏览器反馈回一个response结果
第三步浏览器解析返回的response结果即HTNL,发现其中有许多类型文件列如 js、css等等。
第四位所有文件下载完成后,利用HTML语法将其完整的表现出来
代码:

http请求是用来提交申请并获取资源

爬虫基本知识

1.爬虫简介
2.爬虫出现的作用以及意义
3爬虫的分类

1.爬虫简介

爬虫顾名思义是使用编程语言来获取数据的一种方式,简单来说就是计算机模仿人类去访问浏览器并获取数据的行为

2.作用及意义

爬虫的作用是获取数据源,处于当今的大数据时代,每个企业几乎都需要大量的数据来进行运转,那么如何取获取这些数据呢,一般情况下有以下三种方式

企业自身拥有的一些数据
企业通过第三方获取数据(免费和收费)
自己培养爬虫工程师

爬虫的出现使人们可以大量的处理数据,推动了人工智能与数据分析的发展,人工智能在上个世纪就已经被提出但是很快就销声匿迹了,最主要的原因就是上个世纪的人们还没有处理大量数据的能力,如今大数据时代的到来,再次引发了人工智能的发展,甚至有可能直接带来一个人工智能的时代。

3.爬虫分类

  1. 通用网络爬虫
  2. 聚焦网络爬虫
  3. 增量网络爬虫
  4. 深层网络爬虫

四种常见的抓包工具

1.elements
大部分网站的源码都存放在elements中,但是也存在一些网站列如拉勾网,它的elements中存放的是经过一系列处理呈现出的最终状态的源码
2.consule
作为控制台,用来打印信息
3.source
使用get或post得到的response数据,即网页源代码
4.network
网络工作分类,可以看到许多网页的请求,爬虫的头信息也是在里面提取。

请求头简介

1.get和post请求

浏览器向服务器发送的请求分为两种get和post

get请求不会修改或者影响被爬取的网站的资源,并且爬取的关键字也会显示在url中
post请求,会影响被爬取网站的资源,列如登陆时输入用户名和密码。

2.User-Agent用户代理

通常会被作为反爬机制的第一步,其代表的是用户的操作系统以及浏览器,反爬系统一般第一步就是检验有没有User-Agent,如果没有则会被认定为不是浏览器在访问,随之拒绝访问。

3.refer

同样也是作为反爬机制的一种,其是检验你发出的请求是从哪一个url发出,如果没有则会被认定为你是通过爬虫直接爬取的网站,随之拒绝访问

状态码

200:成功登入
404:登陆失败
301:永久重定向
302:临时重定向
403:服务器拒绝接入
500:服务器内部请求

重定向:即网页自动转向重定向
301永久重定向:新网址完全代替旧网址,旧网址排名不会发生变化
302临时重定向:新网址不完全代替旧网址,新网址不计入排名
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值