工具
pycharm
目的
使用socket进行图片采集
代码
'''
采集流程:
1 获取url
2 发送请求,获取数据
3 提取数据
4 保存数据
'''
import socket
import re
urls = ['https://pic.netbian.com/uploads/allimg/220211/004115-1644511275bc26.jpg',
'https://pic.netbian.com/uploads/allimg/220215/233510-16449393101c46.jpg',
'https://pic.netbian.com/uploads/allimg/211120/005250-1637340770807b.jpg']
for i in range(len(urls)):
client = socket.socket() # 创建套接字对象
# print(client)
# 1 建立连接
client.connect(('pic.netbian.com', 80)) # 建立连接,使用http协议时,在浏览器中的标头处有“原始”选项
# 2 构造请求数据
senddata = 'GET ' + urls[i] + ' HTTP/1.1\r\n' + 'Host:pic.netbian.com\r\nUser-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.79\r\n\r\n'
# 3 发送请求
client.send(senddata.encode()) # 编码为二进制数据,发送的数据为二进制数据
# 4 接收响应数据
data = client.recv(1024)
# print(type(data)) # 接收到的数据类型为bytes,二进制数据
result = b'' # 创建二进制数据变量
while data:
result += data
data = client.recv(1024) # 每次接收大小为1024的数据
# print(result)
# 请求网页时,它的响应体就是网页的 HTML 代码;请求一张图片时,它的响应体就是图片的二进制数据
# 5 提取数据
image = re.findall(b'\r\n\r\n(.*)', result, re.S)[0]
image_name = "image"+str(i)+".png"
# 6 保存数据
with open(image_name,"wb") as f: # 将获取的二进制数据写入到文件中,用wb
f.write(image)
运行结果
见资源

被折叠的 条评论
为什么被折叠?



