xpath ul li 属性值_Xpath解析方法练习

最新推荐文章于 2023-04-06 17:18:06 发布

weixin_39672011

最新推荐文章于 2023-04-06 17:18:06 发布

阅读量649

点赞数

文章标签： xpath ul li 属性值

from lxml import etree

data_str = """

<div>

<ul>

<li class="item-0"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a>

</ul>

</div>

"""

#注意.上方数据缺少了一个一个li的闭标签.

#利用etree.HTML可以将字符串或bytes转化为Element python对象,这个对象有Xpath的方法.

#想要用xpath的方法就先用etree.HTML转化格式.

html = etree.HTML(data_str)

print(html)

#etree.tostring(html)可以自动修正html中的缺失代码,补全缺失标签

#使用为了观察修改以后的HTML的样子,根据修改后的HTML去写Xpath

result = etree.tostring(html)

print(result.decode('utf-8'))

#获得class = item-1 的a标签的herf属性

#所有满足条件的值都会返回list[]

result = html.xpath('//li[@class="item-0"]/a/@href')

print(result)

#xpath练习二

from lxml import etree

import requests

#ca证书

#https需要增加请求头信息(不然会反爬掉)

#http没有反爬

url = "

http://www.baidu.com/s?wd=python

reponse = requests.get(url)

# print(reponse.content.decode('utf-8'))

#转化类型(xpath语法需要找到对应的类型才可以使用)

heml = etree.HTML(reponse.content.decode('utf-8'))

url = heml.xpath('//*[@id ="1"]/h3/a/@href')

print(url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39672011

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫数据解析xpath解析详细讲解——附有详细案例

getture的博客

11-05

4万+

1.什么是xpath 菜鸟教程这么解释的 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准百度百科这么解释的是一种用来确定XML文档中某部分位置的语言是最常用的最广泛的数据解析方式 2.xpath解析原理 ①实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中 ②调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 3.环境的安装 pi

python xpath定位元素方法_Selenium Python 利用XPath定位元素

weixin_39693438的博客

11-20

851

一、什么是XpathXpath是在一种在XML文档里查找信息的语言。二、Xpath定位元素的几种方式1、绝对路径定位a = browser.find_element_by_xpath('/html/body/div/div[2]/div/div/div/from/span/input')绝对路径定位存在很大的问题就是如果页面元素一改变元素的xpath也会随之改变，很不稳定，不推荐使用2、标签+属性...

参与评论您还未登录，请先登录后发表或查看评论

xpath元素定位常用的5种方法（相对路径）

热门推荐

adorable_的博客

05-08

3万+

一、xpath定位定位说明 //ul/* ul的所有子元素 //input[2] 第2个input元素 //input[last() 最后一个input元素 input[position()< 3] 前2个input元素 //input[@value] 有value属性的input元素 //input[@name=‘password’ and @pwd=‘123456’] 属性name的值等于password并且属性pwd的值等于123456的input元素

XPath 学习

abcque的专栏

04-27

515

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>index</title> </head> <body> <div> <ul> <li class="item-0"><a href="link1.html">f.

爬虫实战篇之Xpath解析

Python_Ghost的博客

01-31

2002

先来讲讲逻辑，爬取的网站是：情话网 1、进入主页面，这个网站属于同步加载，在document内发现有需要的HTML数据，因此只需看element就行，使用追踪箭头找到标签的位置。标签网址和标签名都在[li a]标签下，包括下面的也是，可以自己查看一下，接下来就是进行模型匹配 //ul[@class="tj_two"]/li/a/@href :标签网址 //ul[@class="tj_two"]/li/a/text() :标签名这里就不解释了，xpath匹配教程网上也有 2、进入标签网

xpath语法以及解析库lxml库使用方法

怕怕小虫子的博客

04-06

238

Xpath是⼀⻔在HTML/XML⽂档中查找信息的语⾔，可⽤来在HTML/XML⽂档中对元素和属性进⾏遍历。

爬虫笔记(十三)——lxml库的使用

weixin_34021089的博客

08-08

251

HTML示例代码： text = ''' <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a h...

Xpath学习

Zhi涛的博客

04-14

387

“”" XPath的学习 “”" from lxml import etree 案例文件 html_doc = “”" baidu myblog myblog2 csdn bbb aaa """ html = etree.HTML(html_doc) 1、获取所有li下的所有a标签 print(html.xpath("//li/a")) #2、获取指定的li标签item-0 print(html.xp

java xpath 解析网页_使用 xpath 解析 html 的解析器 Jsoupxpath

weixin_31523667的博客

02-28

1457

软件介绍JsoupXpath是一款纯Java开发的使用xpath解析提取html数据的解析器，针对html解析完整实现了W3C XPATH 1.0标准语法，xpath的Lexer和Parser基于Antlr4构建，html的DOM树生成采用Jsoup，故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够好用的xpath解析器，故开发了JsoupXpa...

xpath 第一个元素_爬虫学习(5)—XPath

weixin_39622568的博客

11-20

1042

之前我们写了一个简单的爬虫，在提取页面信息时我们使用正则表达式来匹配内容，但是正则表达式的书写比较繁琐，而且一旦错误就可能导致匹配失败。对于网页的节点来说，它可以定义id，class或其他的属性，而且节点之间还有层次关系，在网页中可以通过xpath后css选择器来定位一个或多个节点。那么，我们在解析页面时，利用CSS和XPath选择器来定位节点，再调用相关方法来获取其正文内容或属性。本文介绍X...

python 获取li的内容_Python爬虫神器Xpath的使用

weixin_39756235的博客

11-20

2159

在用 Python 实现爬虫时，可以使用 requests 库访问资源，然后用正则表达式提取信息。但是，这里会有一些繁琐，因为正则表达式的书写是比较严格的，万一有一个地方写错了，可能会导致匹配失败无法提取需要的信息。对于网页的节点来说，可以定义 id、class 或其他属性。节点之间有层次关系，在网页中，其实可以通过 Xpath 定位一个或多个节点。那么相应的，在页面解析的时候，利用 Xpath ...

关于python中xpath的class和name问题（萌新，欢迎指正）

qq_43479164的博客

06-04

4668

emmm，今天我们来了解一下学习python中xpath中很容易碰见的几个问题。首先是关于xpath中的name的问题。我们先来看一段代码。 from lxml import etree text = ''' <li class="li li-first" name="first item"><a href="link.html">item</a></...

lxml.etree,HTML使用xpath地址找不到元素

南巷清风

06-03

2695

使用etree.HTML(response.text)里面的xpath地址找不到，切换成etree.HTML(response.content)里面的xpath地址就找到了 response.text的内容是str类型 response.content的内容bytes类型具体为什么不是很清楚，如果有知道为什么的可以评论一下。检查过程： html =etree.HTML(response.text) print(etree.tostring(html)) 发现最后打印的数据和之前打印..

爬虫入门之结构化数据类型XML的提取（Xpath）

qq_43706512的博客

09-09

1250

什么是XPath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。什么是XML？ XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义 XML 被设计为具...

python xpath 解析html--<table>下<tb>、<ul>下<li>

pcy1127918的博客

04-18

7289

用xpath来解析一般标签都很简单，因为大多数到可以找到class或者是id等属性，确定一类情况。但是<table>下有多个<tb>，<ul>下有多个<li>，而且还没有属性，类似这种：解决办法：第一种：用etree.HTML()res = etree.HTML(response.txt)table_list = res.xpath('//table...

xpath的简单应用，常见li标签分组

Rouckie的博客

04-24

2422

# coding=utf-8 from lxml import etree text = ''' <div> <ul> <li class="item-1"><a>first item</a></li> <li class="item-1"><a href="link2....

response.xpath("//li[@class='next']/a/@href") is not None

Sean的博客

12-15

4029

if response.xpath("//li[@class='next']/a/@href") is not None : next_page = response.xpath("//li[@class='next']/a/@href").extract()[0] yield scrapy.Request('http://quotes.toscr

Xpath库的用法总结

Yang's Blog

07-07

330

文章目录一.初始化1.读取字符串初始化2.读取文本文件初始化二.查找节点A.标签匹配1.所有节点： //* 可通过下标索引选择对应的节点2.选取特定子节点： //li/a //li//a ; /只用于获取子节点, //用于获取所有子孙节点B.属性匹配1.属性匹配2.属性多值匹配：通过contains(@class,"key")即可筛选出包含key的标签3.多属性匹配：若多个属性匹配一个节点,可以通过and来并列,如@class="item-0" and @name="li"C.关系匹配1.按序选择节点：

xpath点击href属性值