写在前面的话:每一个实例的代码都会附上相应的代码片或者图片,保证代码完整展示在博客中。最重要的是保证例程的完整性!!!方便自己也方便他人~欢迎大家交流讨论~
BeautifulSoup库
BeautifulSoup库使用的基础部分我就不说了,大家看一下我最后面给的参考博客包括文档里面讲了很多这个库的常用方法,我也是自己看一下别人的博客就上手做了,大家可以了解几个重要的概念就直接实战一下,等到要深入再细看官方文档。这篇文章就直接把我自己操作的过程贴出来了(入门级别的爬取操作),供大家参考。本次就做一个从网页上爬图片的练习。
1.获取图片url
首先,打开网页http://588ku.com/chahua-zt/1382.html
右键审查元素,你鼠标移动到哪一行代码,对应在页面上的内容就会以加上一层蒙板的形式显示出来,因此只要专门点击能让页面中图片有蒙板的代码,逐层点击打开之后,发现该页面上所有的图片url都在img标签下,并且有共同的class=“lazy”,于是编辑下列代码
import requests
from bs4 import BeautifulSoup
#给请求指定一个请求头来模拟浏览器
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
webUrl="http://588ku.com/chahua-zt/1382.html"
#向目标url地址发送get请求,返回一个response对象
respon=requests.get(webUrl,headers=headers)
all_img=BeautifulSoup(respon.text,'lxml').find_all('img',class_="lazy")#获取网页中的class为lazy的所有img标签
#遍历all_img,打印所有的img的url
for img in all_img:
print(img['data-original'])
运行结果:打印了该页面所有图片的url