我的第一个博客

最新推荐文章于 2023-07-13 17:39:41 发布

mengyeweiwu

最新推荐文章于 2023-07-13 17:39:41 发布

阅读量85

点赞数

文章标签：数据抓取爬虫 jsoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengyeweiwu/article/details/107325588

版权

访问网站步骤

第一步客户端向浏览器中输入url后按回车，客户端向服务器发送一个 http请求，请求包括get和post请求。
第二步输入url后浏览器向服务器发送一个request请求，之后服务器向浏览器反馈回一个response结果
第三步浏览器解析返回的response结果即HTNL，发现其中有许多类型文件列如 js、css等等。
第四位所有文件下载完成后，利用HTML语法将其完整的表现出来
代码：

http请求是用来提交申请并获取资源

爬虫基本知识

1.爬虫简介
2.爬虫出现的作用以及意义
3爬虫的分类

1.爬虫简介

爬虫顾名思义是使用编程语言来获取数据的一种方式，简单来说就是计算机模仿人类去访问浏览器并获取数据的行为

2.作用及意义

爬虫的作用是获取数据源，处于当今的大数据时代，每个企业几乎都需要大量的数据来进行运转，那么如何取获取这些数据呢，一般情况下有以下三种方式

企业自身拥有的一些数据
企业通过第三方获取数据(免费和收费)
自己培养爬虫工程师

爬虫的出现使人们可以大量的处理数据，推动了人工智能与数据分析的发展，人工智能在上个世纪就已经被提出但是很快就销声匿迹了，最主要的原因就是上个世纪的人们还没有处理大量数据的能力，如今大数据时代的到来，再次引发了人工智能的发展，甚至有可能直接带来一个人工智能的时代。

3.爬虫分类

通用网络爬虫
聚焦网络爬虫
增量网络爬虫
深层网络爬虫

四种常见的抓包工具

1.elements
大部分网站的源码都存放在elements中，但是也存在一些网站列如拉勾网，它的elements中存放的是经过一系列处理呈现出的最终状态的源码
2.consule
作为控制台，用来打印信息
3.source
使用get或post得到的response数据，即网页源代码
4.network
网络工作分类，可以看到许多网页的请求，爬虫的头信息也是在里面提取。

请求头简介

1.get和post请求

浏览器向服务器发送的请求分为两种get和post

get请求不会修改或者影响被爬取的网站的资源，并且爬取的关键字也会显示在url中
post请求，会影响被爬取网站的资源，列如登陆时输入用户名和密码。

2.User-Agent用户代理

通常会被作为反爬机制的第一步，其代表的是用户的操作系统以及浏览器，反爬系统一般第一步就是检验有没有User-Agent,如果没有则会被认定为不是浏览器在访问，随之拒绝访问。

3.refer

同样也是作为反爬机制的一种，其是检验你发出的请求是从哪一个url发出，如果没有则会被认定为你是通过爬虫直接爬取的网站，随之拒绝访问

状态码

200：成功登入
404：登陆失败
301：永久重定向
302：临时重定向
403：服务器拒绝接入
500：服务器内部请求

重定向：即网页自动转向重定向

301永久重定向:新网址完全代替旧网址，旧网址排名不会发生变化

302临时重定向：新网址不完全代替旧网址，新网址不计入排名

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
我的第一个博客

访问网站步骤第一步客户端向浏览器中输入url后按回车，客户端向服务器发送一个 http请求，请求包括get和post请求。第二步输入url后浏览器向服务器发送一个request请求，之后服务器向浏览器反馈回一个response结果第三步浏览器解析返回的response结果即HTNL，发现其中有许多类型文件列如 js、css等等。第四位所有文件下载完成后，利用HTML语法将其完整的表现出来代码： http请求是用来提交申请并获取资源爬虫基本知识1.爬虫简介2.爬虫出现的作用以及意义3爬
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。