爬取图片第一步就是打开网站进行查看源码
注意爬取的东西不可以拿来牟利或恶意传播到网上
第一步打开python
点击python最下方的 Pyhton Packages 下载模块
第一个模块 requests
第二个模块 beautifulsoup4
第三个模块 selenium
创建一个python file
导入模块
import requests
from bs4 import BeautifulSoup
import selenium
定义一个方法提取网站的内容
def craw_html(url):
resp = requests.get(url)
resp.encoding='gbk' #如果爬取出乱码就改一下编码
print(resp.status_code) #如果输出结果为200 可以知道该网站可以直接爬取,没有任何的防爬措施
html = resp.text
return html
def parse_and_download(html):
#解析图片的地址
soup = BeautifulSoup(html, "html.parser")
imgs = soup.find_all("img")
for img in imgs: #循环得到全部img
src = img["src"]
if "/uploads/" not in src:
continue
src = f"https://pic.netbian.com{src}"
print(src)
# 首先得到图片的本地文件的地址
filename = os.path.basename(src)
with open(f"美女图片/{filename}", "wb") as f:
resp_img = requests.get(src)
f.write(resp_img.content)
urls = ["https://pic.netbian.com/4kdongman/"]+[ #循环从第一页到123页
f:= f"https://pic.netbian.com/4kdongman/index_{i}.html"
for i in range(2,123)
]
for url in urls :
print("正在爬取",url)
html = craw_html(url)
parse_and_download(html)
点击开始爬取
爬取成功了
如果报错请看一下代码的格式,或文件夹位置问题
我们再来看一下文件夹中是是否存储了图片.