爬虫学习打卡2——BeautifulSoup

最新推荐文章于 2022-08-01 21:09:50 发布

Leo_Huang720

最新推荐文章于 2022-08-01 21:09:50 发布

阅读量512

点赞数 2

分类专栏：爬虫

本文链接：https://blog.csdn.net/Leo_Huang720/article/details/81411855

版权

写在前面的话：每一个实例的代码都会附上相应的代码片或者图片，保证代码完整展示在博客中。最重要的是保证例程的完整性！！！方便自己也方便他人~欢迎大家交流讨论~

BeautifulSoup库

BeautifulSoup库

BeautifulSoup库使用的基础部分我就不说了，大家看一下我最后面给的参考博客包括文档里面讲了很多这个库的常用方法，我也是自己看一下别人的博客就上手做了，大家可以了解几个重要的概念就直接实战一下，等到要深入再细看官方文档。这篇文章就直接把我自己操作的过程贴出来了（入门级别的爬取操作），供大家参考。本次就做一个从网页上爬图片的练习。

1.获取图片url

首先，打开网页http://588ku.com/chahua-zt/1382.html
右键审查元素，你鼠标移动到哪一行代码，对应在页面上的内容就会以加上一层蒙板的形式显示出来，因此只要专门点击能让页面中图片有蒙板的代码，逐层点击打开之后，发现该页面上所有的图片url都在img标签下，并且有共同的class=“lazy”，于是编辑下列代码
这里写图片描述

import requests
from bs4 import BeautifulSoup

 #给请求指定一个请求头来模拟浏览器
headers={
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
webUrl="http://588ku.com/chahua-zt/1382.html"
 #向目标url地址发送get请求，返回一个response对象
respon=requests.get(webUrl,headers=headers)
all_img=BeautifulSoup(respon.text,'lxml').find_all('img',class_="lazy")#获取网页中的class为lazy的所有img标签
#遍历all_img，打印所有的img的url
for img in all_img:
    print(img['data-original'])

运行结果：打印了该页面所有图片的url

最低0.47元/天解锁文章

Leo_Huang720

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习打卡2——BeautifulSoup

BeautifulSoup库import requestsfrom bs4 import BeautifulSoup #给请求指定一个请求头来模拟浏览器headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 ...
复制链接

扫一扫