pathon爬虫

1.爬虫原理
(1)url_list
(2)发送请求,获取响应
(3)解析响应:
①提取url(翻页/详情),然后放入list中继续循环前面步骤
②提取数据,保存数据

2.发送请求
①发送请求;
import requests
url=‘地址’
②模拟浏览器;
请求头
header={user-agent…(浏览器信息)}
r=requests.get(url,headers=header).json()
#Response[200]响应的状态码~200代表请求成功,print(“r”)
③获取数据(注意获取层次)
videos=r[‘最高层’][‘中间层’][‘最底层’]
#print(‘videos’)
取里面元素需要循环
for index in videos # print(index)
④获取视频名字和播放地址
title=index[‘title’]#名称
paly_url=index[‘play_url’]#播放地址

3.请求头

爬虫一般带三个参数:cookies,Referrer,user-Agent

4.正则表达式函数

(1)re.search() #从左至右搜索,只会输出首次满足匹配条件的内容

(2)re.match() #从头搜索符合条件的字符/字符串,待搜索的字符必须在最开始的位置

(3)re.sub()#替换

(4)re.complie(pattern).findall(string) #全局匹配函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值