访问网站步骤
第一步客户端向浏览器中输入url后按回车,客户端向服务器发送一个 http请求,请求包括get和post请求。
第二步输入url后浏览器向服务器发送一个request请求,之后服务器向浏览器反馈回一个response结果
第三步浏览器解析返回的response结果即HTNL,发现其中有许多类型文件列如 js、css等等。
第四位所有文件下载完成后,利用HTML语法将其完整的表现出来
代码:
http请求是用来提交申请并获取资源 |
爬虫基本知识
1.爬虫简介
2.爬虫出现的作用以及意义
3爬虫的分类
1.爬虫简介
爬虫顾名思义是使用编程语言来获取数据的一种方式,简单来说就是计算机模仿人类去访问浏览器并获取数据的行为
2.作用及意义
爬虫的作用是获取数据源,处于当今的大数据时代,每个企业几乎都需要大量的数据来进行运转,那么如何取获取这些数据呢,一般情况下有以下三种方式
企业自身拥有的一些数据
企业通过第三方获取数据(免费和收费)
自己培养爬虫工程师
爬虫的出现使人们可以大量的处理数据,推动了人工智能与数据分析的发展,人工智能在上个世纪就已经被提出但是很快就销声匿迹了,最主要的原因就是上个世纪的人们还没有处理大量数据的能力,如今大数据时代的到来,再次引发了人工智能的发展,甚至有可能直接带来一个人工智能的时代。
3.爬虫分类
- 通用网络爬虫
- 聚焦网络爬虫
- 增量网络爬虫
- 深层网络爬虫
四种常见的抓包工具
1.elements
大部分网站的源码都存放在elements中,但是也存在一些网站列如拉勾网,它的elements中存放的是经过一系列处理呈现出的最终状态的源码
2.consule
作为控制台,用来打印信息
3.source
使用get或post得到的response数据,即网页源代码
4.network
网络工作分类,可以看到许多网页的请求,爬虫的头信息也是在里面提取。
请求头简介
1.get和post请求
浏览器向服务器发送的请求分为两种get和post
get请求不会修改或者影响被爬取的网站的资源,并且爬取的关键字也会显示在url中
post请求,会影响被爬取网站的资源,列如登陆时输入用户名和密码。
2.User-Agent用户代理
通常会被作为反爬机制的第一步,其代表的是用户的操作系统以及浏览器,反爬系统一般第一步就是检验有没有User-Agent,如果没有则会被认定为不是浏览器在访问,随之拒绝访问。
3.refer
同样也是作为反爬机制的一种,其是检验你发出的请求是从哪一个url发出,如果没有则会被认定为你是通过爬虫直接爬取的网站,随之拒绝访问
状态码
200:成功登入
404:登陆失败
301:永久重定向
302:临时重定向
403:服务器拒绝接入
500:服务器内部请求
重定向:即网页自动转向重定向
|