day03

最新推荐文章于 2024-07-27 11:46:57 发布

aoshe6646

最新推荐文章于 2024-07-27 11:46:57 发布

阅读量91

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/LiXue-/p/11094081.html

版权

一爬虫原理
1.什么是互联网?
指的是由一堆网络设备，把一台台的计算机互联网到一起称之为互联网。
2.互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享,
3.上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中
-爬虫程序:
模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中

import requests #导入requests请求库
#往百度主页发送请求，获取响应对象
response = requests.get(url='https://www.baidu.com/')
#设置字符编码为utf-8
response.encoding = 'utf-8'
#打印响应文本
print(response.text)
#把响应文本写入本地
with open('baidu.html','w',encoding='utf-8') as f:
f.write(response.text)

主页视频
import requests
import re #正则，用于解析文本数据
#1.先往梨视频主页发送请求
response = requests.get('https://www.pearvideo.com/ ')
print(response.text)
#re正则匹配获取所有视频id
#参数1：正则匹配规则
#参数2：解析文本
#参数3：匹配模式
res_list = re.findall('<a href="video_(.*?)"',response.text,re.S)
print(res_list)
for v_id in res_list:
detail_url = 'https://www.pearvideo.com/video_ ' + v_id
print(detail_url)

抓包分析
打开浏览器的开发者模式（检查）---->选中network
找到访问的页面后缀 xxx.html（响应文本）
（1）请求url（访问的网站地址）
（2）请求方式：
GET：
直接发送请求获取数据
https：//
POST：
需要携带用户信息往地址目标发送请求
（3）响应状态码：
2xx:成功
3xx:重定向
4xx:找不到资源
5xx:服务器错误
（4）请求头信息
User-Agent:用户代理（证明是通过电脑设备及浏览器发送的请求）
Cookies:登录用户真实信息（证明你是目标网站的用户）
Referer:上一次访问的url（证明你是从目标网站跳转过来）
（5）请求体：
POST请求才会有请求体
Form Data
{
'user':'xiao',
'pwd':'123'
}

转载于:https://www.cnblogs.com/LiXue-/p/11094081.html

aoshe6646

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
day03

一爬虫原理1.什么是互联网?指的是由一堆网络设备，把一台台的计算机互联网到一起称之为互联网。2.互联网建立的目的?互联网建立的目的是为了数据的传递以及数据的共享,3.上网的全过程:一普通用户:打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中-爬虫程序:模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一>...
复制链接

扫一扫