爬虫概念

一.爬虫的基本介绍

​ 爬虫是一个应用程序,目的是为了从互联网中获取免费,有价值的数据

1.互联网

​ 是由不同的计算机通过某种介质相互连接组成,
互联网是为了使得不同计算机之间可以交换数据
上网指的是,连接到互联网中,获取需要的数据

2.爬虫的价值

​ 我们可以把互联网比喻为一座矿山,爬虫就相当于旷工,各大网站就相当于矿石,为我们提供免费的资源

3.爬虫的原理:

​ 模拟浏览器 – 获取服务器返回的数据 – 解析数据 – 存储

总结:爬虫的基本流程

(1)发送请求
使http库向目标站点发起请求,即发送一个Request
Request包含:请求头,请求体等…

(2)获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html, json, 图片,视频等…

(3)解析内容
解析html数据:正则表达式,第三方解析库如:Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件

(4)保存数据
数据库
文件

4.HTTP协议:

​ HTTP是基于请求响应模型,我们在编写爬虫的时候,要关注的点就是请求

​ 4.1.url

​ 4.2.请求方法
get
post

4.3.状态码

   ~~~
	200 请求成功
    3XX 重定向
    4XX 客户端发送的请求有错误
    5XX 服务器端发生了错误
   ~~~

4.4.请求参数
    	get参数放在URL后
    	post参数放在请求体中body中

​ 4.5.请求头
cookie: 用于识别用户的身份,通常在访问一些私有的页面时需要使用cookie
User-Agent:用户代理,用于标识是由什么客户端发起的请求
referer: 用于判断用户是从哪个链接跳过来的

 4.6.请求体
   		 仅当请求方法为post时才有请求体

4.7.响应头
    	location:当状态码为3XX的时候,直接跳转这个参数的链接

​ 4.8.响应体

   		1.html      使用re 或是其他来解析
    	2.二进制    直接写入文件
    	3.json      反序列化即可
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值