今天把之前的东西捡起来练了练,写了个非常简单的爬虫程序,只能用于爬取静态页面的图片(也就是把图片直接放在标签里,写在HTML里的)
import re
import requests
respose=requests.get('这里写URL')
# print(respose.status_code)# 响应的状态码
# print(respose.content) #返回字节信息
# print(respose.text) #返回文本内容
urls=re.findall(r'class="items".*?href="(.*?)"',respose.text,re.S) #re.S 把文本信息转换成1行匹配
url=urls[5]
result=requests.get(url)
mp4_url=re.findall(r'id="media".*?src="(.*?)"',result.text,re.S)[0]
video=requests.get(mp4_url)
with open('D:\\a.mp4','wb') as f:
f.write(video.content)