这个代码实现的功能是爬取百度图片,具体操作是用百度搜索图片,然后点击f12进入网页的后台,点击刷新以后点击一下all 再搜索index 打开第一个之后把里面的网址复制下来粘贴到代码中的指定位置就可以在代码的同一个文件夹中得到想爬取的图片啦!
代码:
import requests
import re
page_url = "" # 百度获取index的URL
response =requests.get(page_url)
response.encoding ='utf-8'#转换格式
html = response.text#转化为文本格式的网址
#print(response.text)
imgs = re.findall(r'"thumbURL":"(.*?)"',html)
#print(imgs)#得到了每一个图片的网址
for index,img_url in enumerate(imgs):
response=requests.get(img_url)
with open('%s.%s.jpg'%(index, img_url.split('.')[-1]),'wb') as f:
f.write(response.content)
#img_url="https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=7427445,1403647613&fm=26&gp=0.jpg"
#print(response)#加上.content是以二进制呈现的否则只是打印出<Response [200]>
#请求头的User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
#Chrome/71.0.3578.98 Safari/537.36
#这里是讲一个二进制的数据储存到一个xxx的格式为jpg的文件下