爬虫学习打卡2——BeautifulSoup

写在前面的话:每一个实例的代码都会附上相应的代码片或者图片,保证代码完整展示在博客中。最重要的是保证例程的完整性!!!方便自己也方便他人~欢迎大家交流讨论~

BeautifulSoup库

BeautifulSoup库使用的基础部分我就不说了,大家看一下我最后面给的参考博客包括文档里面讲了很多这个库的常用方法,我也是自己看一下别人的博客就上手做了,大家可以了解几个重要的概念就直接实战一下,等到要深入再细看官方文档。这篇文章就直接把我自己操作的过程贴出来了(入门级别的爬取操作),供大家参考。本次就做一个从网页上爬图片的练习。

1.获取图片url

首先,打开网页http://588ku.com/chahua-zt/1382.html
右键审查元素,你鼠标移动到哪一行代码,对应在页面上的内容就会以加上一层蒙板的形式显示出来,因此只要专门点击能让页面中图片有蒙板的代码,逐层点击打开之后,发现该页面上所有的图片url都在img标签下,并且有共同的class=“lazy”,于是编辑下列代码
这里写图片描述

import requests
from bs4 import BeautifulSoup

 #给请求指定一个请求头来模拟浏览器
headers={
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
webUrl="http://588ku.com/chahua-zt/1382.html"
 #向目标url地址发送get请求,返回一个response对象
respon=requests.get(webUrl,headers=headers)
all_img=BeautifulSoup(respon.text,'lxml').find_all('img',class_="lazy")#获取网页中的class为lazy的所有img标签
#遍历all_img,打印所有的img的url
for img in all_img:
    print(img['data-original'])

运行结果:打印了该页面所有图片的url

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值