python爬取妹子图,萌新入门!

安装方法 :win + r 输入cmd, 输入 pip install BeautifulSoup4

代码:
import requests
from bs4 import BeautifulSoup
import bs4
import os
def save_file(rod, url): # 保存文件函数
try:
path = rod + ‘//’ + url.split(’/’)[-1] # 文件保存路径
if not os.path.exists(rod): # 判断该路径文件是否存在
os.makedirs(rod) # 不存在就创建该文件夹
if not os.path.exists(path): # 判断文件是否已经下载过
r = requests.get(url, headers=kv , timeout = 30) # 爬取网上内容
with open(path, ‘wb’) as f:
f.write(r.content)
print(‘文件下载成功’)
else:
print(‘该文件已存在’)
except:
print(‘爬取失败’)

def getHMTlText(url ):# 将URL信息从网络上爬取下来
try:
r = requests.get(url, headers = kv,timeout = 30) # timeout 链接超时时间我设定是30 你们可以自己改
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ‘’

def fillUniucList(ulist, html): #取出组
try:
soup = BeautifulSoup(html, ‘html.parser’) # 熬一锅汤
for tr in soup.find( id = ‘pins’).descendants: # 把解析内容里的 ID = 'pins’的内容遍历出来
if isinstance(tr, bs4.element.Tag): #判断tr = Tag标签
for td in tr.find_all(‘a’): # 找到’A’标签
for tds in td.find_all(‘img’): # 找到 ‘A’ 标签里的’img’标签
text = tds.get(‘alt’) # 取出该图片组的名字
print(text) # 输出名字
path = ‘d://图片//’ + text
url = tds.get(‘data-original’) # 取出 'img’标签里的图片链接
print(url) # 输出已经找到的图片,用作日志以便查看是否正确
save_file(path,url)
except:
return ‘未知错误!’

源码下载地址:https://www.lanzous.com/b05xt887g

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值