这次是想爬取一个壁纸网站里面图片的url,这里使用了lxml库,先上脚本
import requests
from lxml import etree
url="https://pic.netbian.com/4kdongman/"
domain="https://pic.netbian.com/"
data=requests.get(url)
#print(data.text)
et=etree.HTML(data.text) 加载html数据
res=et.xpath("//div[@class='slist']/ul/li/a/@href")
#print(res)
for i in res:
print(domain+i) 爬下来的路径是没有域名,加上域名
测试结果如下:
这里主要是用xpath进行匹配,以下是xpath用法的一些例子
这行代码关键还是这个res=et.xpath("//div[@class='slist']/ul/li/a/@href")
标签a一般都是超链接标签,后面的href就是目标图片的url,xpath就是标签一步步找下来就行,还是比匹配正则方便很多