爬虫练习笔记(二)

python爬虫练习笔记(二)

参考B站路飞学城IT

获取网页HTML

import requests
from bs4 import BeautifulSoup

#获取首页HTML
url = "https://www.umeitu.com/p/gaoqing/"
response = requests.get(url)
response.encoding='utf-8'
html = response.text

解析HTML内容

bs = BeautifulSoup(html,"html.parser")
pic_all = bs.find("div",class_="TypeList").find_all("a",class_="TypeBigPics")
#bs.findAll不能后面再接find_all 因为返回的是列表嘛
datalist = []
count = 1
for pic in pic_all:
	#注意解析HTML的时候观察url的变化
    temp = "https://www.umeitu.com"+pic.get('href')
    print(temp)
    #发送请求进入子页面
    resp1 = requests.get(temp)
    resp1.encoding="utf-8"
    child_page = BeautifulSoup(resp1.text,"html.parser")
    # print(child_page)
    pic_add = child_page.find("div",attrs={"class":"ImageBody"}).find("img").get("src")
    print(pic_add)
    #保存图片路径
    datalist.append(pic_add)
    #保存图片到本地
    	#创建文件
    f = open("pic_%s.jpg" % count,mode="wb") #wb 表示写入非文本内容
    f.write(requests.get(pic_add).content) #获取src对应图片内容
    print("第%d张图片下载完成"%count)
    count = count + 1
print(datalist)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值