1.爬虫原理
(1)url_list
(2)发送请求,获取响应
(3)解析响应:
①提取url(翻页/详情),然后放入list中继续循环前面步骤
②提取数据,保存数据
2.发送请求
①发送请求;
import requests
url=‘地址’
②模拟浏览器;
请求头
header={user-agent…(浏览器信息)}
r=requests.get(url,headers=header).json()
#Response[200]响应的状态码~200代表请求成功,print(“r”)
③获取数据(注意获取层次)
videos=r[‘最高层’][‘中间层’][‘最底层’]
#print(‘videos’)
取里面元素需要循环
for index in videos # print(index)
④获取视频名字和播放地址
title=index[‘title’]#名称
paly_url=index[‘play_url’]#播放地址
3.请求头
爬虫一般带三个参数:cookies,Referrer,user-Agent
4.正则表达式函数
(1)re.search() #从左至右搜索,只会输出首次满足匹配条件的内容
(2)re.match() #从头搜索符合条件的字符/字符串,待搜索的字符必须在最开始的位置
(3)re.sub()#替换
(4)re.complie(pattern).findall(string) #全局匹配函数