python爬取妹子图，萌新入门！

最新推荐文章于 2021-08-18 17:02:41 发布

我不是Java神

最新推荐文章于 2021-08-18 17:02:41 发布

阅读量237

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_44764405/article/details/108972588

版权

安装方法 :win + r 输入cmd, 输入 pip install BeautifulSoup4

代码：
import requests
from bs4 import BeautifulSoup
import bs4
import os
def save_file(rod, url): # 保存文件函数
try:
path = rod + ‘//’ + url.split(’/’)[-1] # 文件保存路径
if not os.path.exists(rod): # 判断该路径文件是否存在
os.makedirs(rod) # 不存在就创建该文件夹
if not os.path.exists(path): # 判断文件是否已经下载过
r = requests.get(url, headers=kv , timeout = 30) # 爬取网上内容
with open(path, ‘wb’) as f:
f.write(r.content)
print(‘文件下载成功’)
else:
print(‘该文件已存在’)
except:
print(‘爬取失败’)

def getHMTlText(url ):# 将URL信息从网络上爬取下来
try:
r = requests.get(url, headers = kv,timeout = 30) # timeout 链接超时时间我设定是30 你们可以自己改
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ‘’

def fillUniucList(ulist, html): #取出组
try:
soup = BeautifulSoup(html, ‘html.parser’) # 熬一锅汤
for tr in soup.find( id = ‘pins’).descendants: # 把解析内容里的 ID = 'pins’的内容遍历出来
if isinstance(tr, bs4.element.Tag): #判断tr = Tag标签
for td in tr.find_all(‘a’): # 找到’A’标签
for tds in td.find_all(‘img’): # 找到 ‘A’ 标签里的’img’标签
text = tds.get(‘alt’) # 取出该图片组的名字
print(text) # 输出名字
path = ‘d://图片//’ + text
url = tds.get(‘data-original’) # 取出 'img’标签里的图片链接
print(url) # 输出已经找到的图片，用作日志以便查看是否正确
save_file(path,url)
except:
return ‘未知错误！’

源码下载地址：https://www.lanzous.com/b05xt887g

我不是Java神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取妹子图，萌新入门！

安装方法 :win + r 输入cmd, 输入 pip install BeautifulSoup4代码：import requestsfrom bs4 import BeautifulSoupimport bs4import osdef save_file(rod, url): # 保存文件函数try:path = rod + ‘//’ + url.split(’/’)[-1] # 文件保存路径if not os.path.exists(rod): # 判断该路径文件是否存在os.ma
复制链接

扫一扫