pathon爬虫

最新推荐文章于 2024-08-06 11:55:39 发布

﹉Dimples..

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量157

点赞数

分类专栏：笔记文章标签： 1024程序员节

本文链接：https://blog.csdn.net/qq_59421645/article/details/120936046

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.爬虫原理
（1）url_list
（2）发送请求，获取响应
（3）解析响应：
①提取url（翻页/详情），然后放入list中继续循环前面步骤
②提取数据，保存数据

2.发送请求
①发送请求；
import requests
url=‘地址’
②模拟浏览器；
请求头
header={user-agent…（浏览器信息）}
r=requests.get（url，headers=header）.json（）
#Response［200］响应的状态码～200代表请求成功，print（“r”）
③获取数据（注意获取层次）
videos=r［‘最高层’］［‘中间层’］［‘最底层’］
#print（‘videos’）
取里面元素需要循环
for index in videos # print（index）
④获取视频名字和播放地址
title=index［‘title’］#名称
paly_url=index［‘play_url’］#播放地址