Python爬虫进行BeautifulSoup数据解析实战

今天继续给大家介绍Python爬虫相关知识,本文主要内容是Python爬虫进行BeautifulSoup数据解析实战。

一、需求分析

在上文Python爬虫进行正则数据解析实战中,我们实现了使用re库的正则表达式来提取目标URL中的图片。在本文中,我们尝试使用BeautifulSoup库来对正文中的图片进行提取下载。
使用浏览器自带的检查工具,简单分析页面可以看出,页面正文在一个id为content_views的div标签中,如下所示:
在这里插入图片描述
因此,我们可以使用BeautifulSoup,查找该div标签下的所有img标签,并提取img标签下的src属性。

二、编码实战

根据上述需求和分析,编写好的代码如下所示:

import requests
from bs4 import BeautifulSoup
import time
import os

url='https://blog.csdn.net/weixin_40228200/article/details/128438620'
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
}
page_text=requests.get(url=url,headers=headers).text
soup=BeautifulSoup(page_text,'lxml')
if not os.path.exists("./csdnIMG2"):
    os.mkdir("./csdnIMG2")
img_list=soup.select('#content_views img')
img_name_id=1
for img in img_list:
    img_url=img['src']
    img_name="./csdnIMG2/"+str(img_name_id)+".png"
    img_data=requests.get(url=img_url,headers=headers).content
    with open(img_name,'wb') as fp:
        fp.write(img_data)
    img_name_id+=1
    time.sleep(1)

在使用BeautifulSoup函数时,我们使用了id属性选择器,以及迭代的方式,选择除了所有的img标签,代码如下所示:

img_list=soup.select('#content_views img')

三、效果检验

上述代码执行结果如下所示:
在这里插入图片描述
从上文可以看出,我们成功的提取除了图片!
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

永远是少年啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值