【爬虫】爬取网站图片的url学习记录，xpath用法

最新推荐文章于 2024-04-21 15:05:18 发布

GGb0mb

最新推荐文章于 2024-04-21 15:05:18 发布

阅读量148

点赞数 1

文章标签：爬虫学习 python

本文链接：https://blog.csdn.net/question55/article/details/134297540

版权

这次是想爬取一个壁纸网站里面图片的url，这里使用了lxml库，先上脚本

import requests

from lxml import etree

url="https://pic.netbian.com/4kdongman/"

domain="https://pic.netbian.com/"

data=requests.get(url)

#print(data.text)

et=etree.HTML(data.text) 加载html数据

res=et.xpath("//div[@class='slist']/ul/li/a/@href")

#print(res)

for i in res:

print(domain+i) 爬下来的路径是没有域名，加上域名

测试结果如下：

这里主要是用xpath进行匹配，以下是xpath用法的一些例子

这行代码关键还是这个res=et.xpath("//div[@class='slist']/ul/li/a/@href")

标签a一般都是超链接标签，后面的href就是目标图片的url，xpath就是标签一步步找下来就行，还是比匹配正则方便很多

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GGb0mb

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

基于xpath爬取小图片

m0_55387753的博客

04-23

172

【代码】基于xpath爬取彼岸图网（只是小图片）

xpath 爬取图片

xiyucai_cai的博客

06-28

1356

爬去图片 import requests import re from lxml import etree from urllib3 import request# 页数def page(url,totalpage): changepage=[] for i in range(1,totalpage+1): page_number=re.sub

1 条评论您还未登录，请先登录后发表或查看评论

用Python的xpath模块学习抓取图片

littlespider889的博客

05-25

201

大家好，我是天空之城，今天带来一个小福利，教大家用python抓取妹子图。话不多说，上代码。 import requests,re,lxml from lxml import etree class Spider(object): def __init__(self): self.headers = { 'Referer': 'https://www.mzitu.com', 'User-Agent': 'Mozilla/5.0 (Wi

使用python爬取图片（urllib.request.urlretrieve）

m0_65351888的博客

09-18

1618

用于解决爬百度图片被拒绝，但是又因为种种原因不能爬搜狗图片，还需要爬动态网页的图片的朋友们

利用Lxml库中xpath语法爬取异步加载网页中图片并存入mongodb

弱水滴石的博客

12-03

976

一、Lxml介绍 lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。 XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过10...

基础爬虫之xpath爬取图片

ZHU1640182189的博客

05-18

1173

Element对象，然后进行xpath路径截取，存储在一个列表中，然后进行一个for循环遍历列表，得到图片对应的页面源码。表达的就是在这个页面下的class叫ibox2 all的div下的ul下的li元素，包含着所有的ul下的li。Step4:运用xpath方法对图片的url进行截取然后进行请求，并转换成二进制文件，然后进行持续化存储。Step3:使用etree中的HTML方法对字符串格式的源码进行转换，得到一个可以被xpath识别的。一、什么是xpath？(欢迎大神指导菜鸡)

使用xpath爬取网页文章url标题

star_xing123的博客

10-24

6233

本文使用python3 # -*- coding:utf-8 -*- import requests # 由于XPath属于lxml库模块，所以首先要安装库lxml pip install lxml from lxml import etree import csv url = "https://news.sina.com.cn/china/"# 爬取页面url地址 # 根据url获取页面...

爬虫——xpath爬取图片

liaojsgtcg的博客

10-12

4091

目录简介XPath定位方法爬取图片简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。在使用XPath前我们需要大致了解HTML / XHTML；XML / XML 命名空间，的相关知识。什么是 XPath? XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准 XPath 路径表达式: XPath 使用路径表达式来选取 XML

python爬虫爬取小说（供学习使用）

02-03

在这个项目中，我们利用Python来爬取蚂蚁**网上的小说内容，供学习和研究使用。这个过程涉及到的知识点包括Python的基础语法、HTTP请求、网页解析以及文件操作。首先，Python作为一门面向对象的动态类型语言，其...

Python使用爬虫爬取静态网页图片的方法详解

09-20

Python爬虫用于爬取静态网页图片的方法涉及到网络爬虫的基本原理和Python的相关库。首先，爬虫的主要步骤包括下载网页、管理URL以及解析网页内容。在Python中，我们可以使用内置的`urllib2`或第三方库`requests`作为...

http 读取URL图片

12-29

http 读取URL图片

Python爬虫爬取某网站数据

01-23

这个类需要继承自Scrapy的`Spider`类，并设置`name`（爬虫的唯一标识）、`start_urls`（爬虫开始爬取的URL列表）和其他相关属性。 ```python import scrapy class MySpider(scrapy.Spider): name = 'myspider' ...

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1)

2401_84009626的博客

04-21

1073

前面说过，每个li标签下都是一部电影的信息，一个页面有25部电影，那么就应该有25个li标签，我们可以通过li标签的下标定位获取到不同的li标签。以上就是我们获取一部电影数据的过程，接下来要获取一个页面的全部电影信息，然后通过循环翻页，获取不同页面的电影信息。需要嵌套循环，第一层循环通过改变data参数中的start的值来实现翻页，第二层循环则是遍历每个页面中的li标签，获取该页面每一部电影的数据。接下来获取电影详情页的链接，链接就在a标签中，是a标签的属性href的属性值，我们复制a标签的xpath。

python-xpath，4k图片爬取练习案例

weixin_50667411的博客

04-01

181

爬取网页图片

Python爬虫入门案例4：使用Xpath语法爬取多个页面的图片

weixin_62848089的博客

05-10

568

（不要忘了在运行代码之前更改自己的UA，同时在项目中创建名为loveimg的文件夹，否则图片无法下载会报错的）urllib.request.urlretrieve（url=“路径”,filename="文件名"）描述：使用xpath来进行页面的解析，爬取站长素材网某个分类的图片，并把它们全部下载到本地。该页面更新之后就不再使用懒加载了，直接使用img的。这个属性进行图片地址的解析就可以了。

【Python从入门到进阶】29、xpath抓取站长素材图片

程序猿之洞

07-22

1354

我们本次需要利用python的urllib+xpath技术，抓取站长之家首页大概有40张左右的图片，我们会根据图片抓取的深度，分为抓取图片缩略图、详情页面图和高清大图三种类型。

【Python爬虫开发实战①】使用urllib以及XPath爬取可爱小猫图片

z135733的博客

06-28

855

本文爬虫程https://img-blog.csdnimg.cn/e72265ef9c1d4b2198fb117f5956ff3a.jpeg序用到了urllib库和XPath库，都是上两次文章讲过的，链接已经放在上面了，没有看过的先看一下前置知识哦~下面我们马上开始！

Python爬虫爬取4k高清图片——xpath解析

qq_44777595的博客

10-05

1184

在浏览器的网址栏输入该URL，确实能请求到第一页，由于每一页的URL的变化是不连贯的，但是从第2页开始是有规律的。所以我们可以单独获取第一页的图片，再通过循环获取第2页到第22页的图片。标签获取该页面中每一张图片的数据，由于通过xpath获取的数据会存储到一个列表中，所以我们需要通过下标索引取出对应的值。对比img标签中的src属性值可以发现，src中的图片地址是不完整的，所以在获取图片地址后需要将其拼接成完整的地址。图片的部分地址在img标签的src属性中，图片的名称是img标签alt属性的属性值。

使用XPath查询带有命名空间(有xmlns)的XML