Python etree.xpath不能准确定位HTML

最新推荐文章于 2023-02-14 20:12:08 发布

sinat_18639423

最新推荐文章于 2023-02-14 20:12:08 发布

阅读量6.3k

点赞数

分类专栏： python 文章标签： python etree xpath html

本文链接：https://blog.csdn.net/sinat_18639423/article/details/43898613

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近做毕设的时候需要用Python通过XPath从HTML中获取一些值

在大多数网站中是很好用的，今天突然发现在搜狐视频上就获取的不是很正常了

测试代码：

<span style="font-size:18px;">#coding:utf8
from lxml import etree
f = open('sohu.html', 'r')
html = f.read()
f.close()
tree = etree.HTML(html)
container = tree.xpath("//*")
print container</span>

输出结果：

<span style="font-size:18px;">[<Element html at 0x25b0b08>, <Element head at 0x25b0b48>, <Element script at 0x25b0f08>, <Element meta at 0x25b0048>, <Element meta at 0x25b00c8>, <Element meta at 0x25b0108>, <Element meta at 0x25b0208>]</span>

可以明显发现只能获取到几个节点，跟优酷的结果完全不同

一直以为是自己xpath写错了，后来发现是搜狐视频首页的编码是GBK，其他能正常获取节点的编码都是UTF-8

改了一下代码：

<span style="font-size:18px;">#coding:utf8
from lxml import etree
import re
f = open('sohu.html', 'r')
html = f.read()
f.close()
html = re.sub(r'charset=(\w*)', 'charset=UTF-8', html)
tree = etree.HTML(html)
container = tree.xpath("//*")
print len(container)</span>

最后输出：

<span style="font-size:18px;">3216</span>

搞定！~\(≧▽≦)/~

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sinat_18639423

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python网络编程实战-使用etree进行网页数据的解析，etree.xpath的使用

记录和分享程序人生的点点滴滴

09-26

4793

etree是基于ElementTree API的一种XML解析方式。相较于SAX，DOM而言，具有代码可用性好，速度快，消耗内存少等特点。Python的lxml库中的etree，提供了ElementTree API定义的接口。

python etree库_Xpath语法与lxml库的用法(etree_xpath)

weixin_35607076的博客

01-28

2494

来一段代码先：importrequestsfrom lxml importetreehtml=requests.get('https://python123.io/ws/demo.html').texttree=etree.HTML(html)print(tree.xpath('//p[@class="title"]/b/text()'))#列表类型print(tree.xpath('//a[@c...

参与评论您还未登录，请先登录后发表或查看评论

爬虫踩坑系列——etree.HTML解析异常

热门推荐

jack的博客

08-13

3万+

在爬虫的过程中，难免会遇到各种各样的问题。在这里，为大家分享一个关于etree.HTML解析异常的问题。 1.问题描述：爬虫过程中，一般会使用requests.get()方法获取一个网页上的HTML内容，然后通过lxml库中的etree.HTML来解析这个网页的结构，最后通过xpath获取自己所需的内容。本人爬虫的具体代码可简单抽象如下： res = requests.get(url) h...

xpath定位路径每次不一致

weixin_39934655的博客

01-20

3488

xpath定位 python+selenium定位xpath会变动的元素–使用last()函数定位最后一个节点数 web自动化学习–xpath之last()函数的使用问题描述：在实现功能自动化时，定位某一个元素，直接复制其xpath，实际上脚本跑起来后发现一直没定位到该元素； xpath为：/html/body/div[6]/div[1]/div[1]/ul/li 问题原因：比如由于不同的操作，xpath可能为： /html/body/div[6]/div[1]/div[1]/ul/li /html/

Python用lmxl的xpath解析定位元素报错的问题

xkukeer的博客

04-28

2203

今天要解析一个网页，能定位到元素，但是用Python解析的时候老报错。记录下解决过程：目的：要从网页上找一个元素，定位到元素后，获取ta。错误：能定位到元素，但是代码无法获取对应的值，总是报：sequence item 0: expected str instance, lxml.etree._Element found 下面是解决过程，不想看过程的话，直接翻到底部看结果。解决过程： 1、源码（报错的版本）： import faker import requests from lxml impor

html,XPath 学习笔记

Xiaoyi_Zhang的博客

05-31

680

XPath 1. Chrome和傲游浏览器的Console中执行的Xpath代码有些区别。例如，要提取a tag中的某个属性，在傲游中是这样写： $x('//a/@href') 而在Chrome中则是 $x('//a')[0].getAttribute('href') 2：// 和 / 在XPath中，双斜线 "//" 表示收集在Hierarchy中任意位置

xpath使用，解决不能导入etree

weixin_45204909的博客

08-05

1336

xpath使用，解决不能导入etreexpath使用1、当版本过新，etree模块不能从lxml包中导入2、通过xpath的选择器获取页面节点内容 xpath使用 1、当版本过新，etree模块不能从lxml包中导入传统写法 from lxml import etree 当发现这样不能导入etree时 from lxml.html import etree 2、通过xpath的选择器获取页面节点内容问题1：什么是根节点？即是html标签问题2：什么是当前节点？拿下面的text文本说

selenium找不到元素的几种原因（通过xpath定位元素不准确）

jierxiaoyao的博客

07-18

1万+

1.找到元素后，click没有作用，可以试试用action里的sendKeys模仿键盘敲enter键（注意：1.enter之前可能需要tab；2.sendKeys之后需要perform）例： //点击数据中心类型下拉框 createObject.type.click(); //数据中心类型下拉框click点不到，用tab键和enter键代替（sendKeys之后要perform一下）...

Python3 xml.etree.ElementTree支持的XPath语法详解

09-17

Python3的xml.etree.ElementTree模块提供了一个XML处理接口，其中包含了对XPath语言的有限支持。XPath是一种在XML文档中查找信息的语言，它允许我们基于元素的名称、属性、文本内容以及它们之间的关系来定位XML节点...

python etree库_Python 标准库之 xml.etree.ElementTree

weixin_35687240的博客

02-19

4848

一、导入ET在Python标准库中，ElementTree有两种实现方式：一种是纯Python的实现xml.etree.ElementTree，另一种是速度更快一点的xml.etree.cElementTree。如果不确定环境中是否有cElementTree，可以使用如下的方式导入：try:importxml.etree.cElementTree as ETexceptImportError:im...

【Python技巧】爬虫网站，lxml中的etree不能定位到信息内容，原因是chrome阅览器自动添加tbody标签

weixin_49340599的博客

12-13

1063

当我在爬虫某报刊列表名称的时候发现，lxml中的etree解析response.text，得到的结果是一个空列表，具体问题如下：首先通过chrome定位要爬取列表位置：根据上图，我们可知，xpath为：根据xpath位置制作python代码：最终得不到任何结果，返回一个空字符串，反复监察chrome阅览器中定位没有问题，于是我分析获取的html，发现chrome显示的和服务器返回的html是不同的。服务器返回的html中，没有tbody这一类，但咱们用xpath判断位置的时候添加了这一类。二、原

【python爬虫】parse加载本地HTML文件：lxml.etree.XMLSyntaxError报错的分析和解决方案

weixin_63133658的博客

02-14

1582

lxml.etree.XMLSyntaxError报错的分析和解决方案

xpath补充：lxml.etree常用方法，使用selenium、xpath定位不到标签时处理办法

旧人小表弟的博客 - 无业游民学习笔记

10-16

2152

获取属性的值和标签中的文本有时候不能直接定位到标签的属性，需要首先定位到webelement，之后get到属性 try: temp['host_url'] = node.find_element_by_xpath('./div/div/div/ytd-video-meta-block/div/div/div/yt-formatted-string/a/@href') temp['host_url'] = node.find_element_by_xpath('./div/div/div/ytd

xpath用法案例笔记4

return_min的博客

12-20

601

案例 1 from lxml import etree 1将字符串编译成element对象 etree.HTML方法，是将内容解析成html文档 tree = etree.HTML(text) print(tree) #<Element html at 2将element对象变成字符串的方法 html_str = etree.tostring(tree,pretty_print=True)....

python etree.html_python – 使用ElementTree的节点内的HTML

weixin_39689428的博客

12-04

503

我正在使用ElementTree来解析XML文件.在某些字段中,会有HTML数据.例如,考虑如下声明：Line 1Line 2现在,假设_course是一个Element变量,它保存了这个Couse元素.我想访问这门课程的描述,所以我这样做：desc = _course.find("Description").text;但是desc只包含“第1行”.我读了一些关于.tail属性的内容,所以我也试过...

lxml.etree,HTML使用xpath地址找不到元素

南巷清风

06-03

2685

使用etree.HTML(response.text)里面的xpath地址找不到，切换成etree.HTML(response.content)里面的xpath地址就找到了 response.text的内容是str类型 response.content的内容bytes类型具体为什么不是很清楚，如果有知道为什么的可以评论一下。检查过程： html =etree.HTML(response.text) print(etree.tostring(html)) 发现最后打印的数据和之前打印..

解决python版本3.9中lxml无法导入etree及xpath方法的问题

weixin_50007456的博客

03-08

3993

from lxml import etree 遇到的提取问题

木下瞳的博客

07-14

8030

etree.HTML函数python,python lxml中etree的简单应用

weixin_42466857的博客

06-17

1万+

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。1.etree.HTML()etree.HTML()可以用来解析字符串格式的HTML文档对象，将传进去的字符串转变成_Element对象。作为_Element对象，可以方便的使用g...

etree.xpath