etree获取html中相关数据

最新推荐文章于 2024-07-17 14:13:18 发布

lcomecon

最新推荐文章于 2024-07-17 14:13:18 发布

阅读量2.7k

点赞数 1

分类专栏：开发文章标签： html 前端 python

本文链接：https://blog.csdn.net/lcomecon/article/details/122439703

版权

开发专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这段时间做了一些通过网络搜索获取相关信息的事情，实质就是通过搜索词语、短语，获得包含这些词语短语的句子，将句子用于模型的增量学习；目前使用的搜索网页是bing（因为百度搜索结果很多是百家号，然后程序访问百家号网页会要求人工验证），搜索出来的网页使用etree进行构建，并搜索；目前获取到的用法有：

1. 构建etree

from lxml import etree

page = etree.HTML(text)

text： 也可以为其中的某个元素对应的str，并不一定完整需要html

2. 查找数据

# 从根目录开始查找
str1 = u'/html/body/div[@id="b_content"]/main/ol[@id="b_results"]'
str2 = u'/li[@class="b_algo"]/div/a'
infos = page.xpath(str1 + str2)

# 查找所有的div
str3 = u"//div"
infos = page.xpath(str3)

对于一个element, 其中的属性查看，比如“href”、“target”等
if "href" in info.attrib:
	print(info.attrib["href"])

3. element转化为str

有时候需要把找到的代码块转化为str，获取相对应标签等等，此时，可能需要把其转化为str

text = etree.tostring(info,encoding="utf-8").decode()

4. 获取文本

比如有如下的元素：
<span style="font-size: 26.25pt;">继续把党史总结学习教育宣传引向深入</span> 
对应为info，获取中间的文字，使用info.text即可

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lcomecon

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python网络编程实战-使用etree进行网页数据的解析，etree.xpath的使用

记录和分享程序人生的点点滴滴

09-26

4809

etree是基于ElementTree API的一种XML解析方式。相较于SAX，DOM而言，具有代码可用性好，速度快，消耗内存少等特点。Python的lxml库中的etree，提供了ElementTree API定义的接口。

数据提取（二）：xpath - lxml从字符串和文件中解析html代码 etree.html()，etree.tostring()，etree.parse()，etree.HTMLParser()

Wjf7496的博客

11-24

6064

一、lxml库简述 lxml库是一个HTML、XML的解析器，主要功能是如何解析和提取HTML、XML数据。它和正则一样是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。 lxml python 官方文档:http://lxml.de/index.html 需要安装C语言库，可使用 pip 安装：pip install lxml 二、lxml库的基本使用（1）从字符串中解析HTML代码：etree.html(str

参与评论您还未登录，请先登录后发表或查看评论

使用ETREE获取文本元素

2302_79819675的博客

09-24

811

etree是python中的XML解析库，主要用于解析和操作XML文档，用 pip install lxml 安装etree。3.通过href属性定位查找出已知Html中[li]中第4个[li]标签属性及a元素文本信息。2.通过class属性查找html中第三个【li】标签属性和a元素文本信息。1.查找出html中【li】第一个【li】标签下的a元素文本信息。4：提取出含有‘line-’的li下的a元素内容。5.删除左右空格，使用空格替换\n。以HTML为例来获取其中的元素。

使用lxml库提取HTML中a标签的href和文本内容

最新发布

weixin_43822401的博客

07-17

639

在网页抓取和数据提取中，我们经常需要获取链接（href属性）以及链接文本。以下是如何使用lxml库来实现这一需求的详细步骤。

etree不能使用，etree.HTML(）不能使用。

liuchunyu0130的博客

04-30

4924

总结： 1、from lxml import etree 不能使用，版本升级以后，用法改变使用 from lxml import html etree = html.etree 2、a = etree.HTML(res.text) 不能使用，版本改变，用法改变 > 使用 a = etree.HTML(res.text) 例子： import requests from lxml import html # 把lxml是解析xml语言的库 etree = html.etree i.

python--lxml.etree爬取html内容

西门一刀的博客

02-11

746

转载自：悠悠博客园前言本篇继续lxml.etree学习，在线访问接口，通过接口返回的html，解析出想要的text文本内容环境准备： python 3.6 lxml requets 定位目标爬取我的博客首页https://www.cnblogs.com/yoyoketang/左侧栏个人基本信息先f12抓包，找到该接口地址https://www.cnblogs.com/mvc/blog/news.aspx?blogApp=yoyoketang # coding:utf-8 import reque

lxml库中etree.HTML()和etree.tostring()用法

南淮北安的博客

01-25

2万+

1. 测试HTML代码 # 测试代码test.html &lt;html&gt; &lt;head&gt; &lt;meta charset="UTF-8"&gt; &lt;/head&gt; &lt;body&gt; &lt;div clas

python lxml中etree的简单应用

09-19

### Python lxml 中 etree 的简单应用详解 #### 一、引言在Web开发与数据分析领域，经常需要处理HTML或XML格式的数据。Python 提供了许多强大的库来帮助开发者完成这项任务，其中 `lxml` 库因其高效且功能全面而...

etree.html ()没数据,etree.html的用法问题

05-22

`etree.html()` 是 lxml 库中 Element 对象的一个方法，用于将 Element 对象转换为 HTML 格式的字符串。如果你执行 `etree.html()` 没有得到数据，可能是因为你没有正确地使用 lxml 库。以下是一个简单的例子，演示...

使用lxml.etree解析中文网页时出现乱码问题的解决办法

胡LiuJia@BLOG

01-30

4287

吐槽不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x 这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。 lxml.etree.tostring 乱码的解决方案话不多说，直接show code，很简单的一个示例代码。这里的关键是to string时用utf-8编码，然后用utf-8解码。 #!env python3 from urllib.request

python--lxml.etree解析html

ezreal_tao的博客

06-07

9457

转载自：悠悠博客园前言之前分享过一个python爬虫beautifulsoup框架可以解析html页面，最近看到lxml框架的语法更简洁，学过xpath定位的，可以立马上手。使用环境： python 3.6 lxml 4.2.4 lxml安装使用pip安装lxml库 $ pip install lxml pip show lxml查看版本号 $ pip show ...

python etree.html_将文本附加到etree元素以进行html标记

weixin_28197941的博客

02-19

556

我使用python markdown执行以下操作：当存在[test]形式的表达式时，我希望将其呈现为[test]为此，我对markdown的inlinePatterns应用了一个扩展：^{pr2}$然而，这种情况正在回归[]test我不确定.tail是否是正确的属性，但我找不到正确的语法。在我该怎么做？在完整程序from markdown.inlinepatterns import Pattern...

etree.HTML函数python,python lxml中etree的简单应用

weixin_42466857的博客

06-17

1万+

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。1.etree.HTML()etree.HTML()可以用来解析字符串格式的HTML文档对象，将传进去的字符串转变成_Element对象。作为_Element对象，可以方便的使用g...

Python中etree.HTML()函数解析