day03

一爬虫原理
1.什么是互联网?
指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。
2.互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享,
3.上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中
-爬虫程序:
模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中

import requests #导入requests请求库
#往百度主页发送请求,获取响应对象
response = requests.get(url='https://www.baidu.com/')
#设置字符编码为utf-8
response.encoding = 'utf-8'
#打印响应文本
print(response.text)
#把响应文本写入本地
with open('baidu.html','w',encoding='utf-8') as f:
f.write(response.text)

主页视频
import requests
import re #正则,用于解析文本数据
#1.先往梨视频主页发送请求
response = requests.get('https://www.pearvideo.com/ ')
print(response.text)
#re正则匹配获取所有视频id
#参数1:正则匹配规则
#参数2:解析文本
#参数3:匹配模式
res_list = re.findall('<a href="video_(.*?)"',response.text,re.S)
print(res_list)
for v_id in res_list:
detail_url = 'https://www.pearvideo.com/video_ ' + v_id
print(detail_url)

抓包分析
打开浏览器的开发者模式(检查)---->选中network
找到访问的页面后缀 xxx.html(响应文本)
(1)请求url(访问的网站地址)
(2)请求方式:
GET:
直接发送请求获取数据
https://
POST:
需要携带用户信息往地址目标发送请求
(3)响应状态码:
2xx:成功
3xx:重定向
4xx:找不到资源
5xx:服务器错误
(4)请求头信息
User-Agent:用户代理(证明是通过电脑设备及浏览器发送的请求)
Cookies:登录用户真实信息(证明你是目标网站的用户)
Referer:上一次访问的url(证明你是从目标网站跳转过来)
(5)请求体:
POST请求才会有请求体
Form Data
{
'user':'xiao',
'pwd':'123'
}

转载于:https://www.cnblogs.com/LiXue-/p/11094081.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值