使用Python的lxml模块提取HTML/XML 数据

最新推荐文章于 2023-06-11 19:39:38 发布

Spaceack

最新推荐文章于 2023-06-11 19:39:38 发布

阅读量433

点赞数 1

分类专栏： Python 文章标签： python xpath html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a541972321/article/details/110249717

版权

Python 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

demo

#更新： 新版本引入etree模块方式

from lxml import html
etree = html.etree
tree = etree.HTML("")

html = '''
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title class="sub_title">Title</title>
</head>
<body>
<div class="none">
<a href ="#">Spaceack's code</a>
</div>
<div class="link">
<a href ="http://spaceack.com">Spaceack's blog</a>
</div>
</body>
</html>
'''
# 老版本引入etree模块方式
from lxml import etree
tree = etree.HTML(html)
# 获取class为link的a标签的元素内容
a_content = tree.xpath('.//div[@class="link"]/a/text()')
print(a_content)
# ["Spaceack's blog"]

# 使用attrib获取标签的属性值
href_element = tree.xpath('.//div[@class="link"]/a')
print(href_element)
# [<Element a at 0x7ff3571a4d80>]
href = href_element[0].attrib.get('href')
print(href)
# http://spaceack.com

获取标签元素内容为空的两种不同效果:

demo

from lxml import etree
# 可见第二个标签 td 元素内容为空
tree = etree.HTML("<th>水果</th><td>苹果</td><th>价格</th><td></td>")
key = tree.xpath("//th/text()")
value = tree.xpath("//td/text()")
print(key, value)
'''
['水果', '价格'] ['苹果']
'''

如果想让价格使用None或空字符串''来占位，可以这样做:

key = tree.xpath("//th")
value = tree.xpath("//td")

key = [item.text for item in key] 
value = [item.text for item in value]
print(key, value)
'''
['水果', '价格'] ['苹果', None]
'''
key = [""  if   item.text==None else item.text for item in key]
value = [""  if  item.text==None else item.text for item in value]
print(key, value)
'''
key ['水果'， '价格']
['水果', '价格'] ['苹果', '']
'''

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄14年

Python领域新星创作者

126
原创

326
点赞

327
收藏

5733
粉丝

关注

私信

热门文章

分类专栏

Python 74篇
人工智能 1篇
题解 49篇
Linux 18篇
CTF 12篇
网络安全 3篇
编程练习 3篇
开源资讯 1篇
开源 1篇
Go 1篇
微服务 1篇
中间件
图像识别 2篇
算法 22篇
个人作品 4篇
分布式 2篇
智能设备 2篇
mysql 4篇
错误处理 5篇
hadoop 1篇
pdf 1篇
mongodb 1篇
网络 1篇

最新评论

AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南
Spaceack: 报的什么错呀？有错误信息么？
AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南
weixin_42924890: 请问我在创建数据库连接的时候报错，为什么呀
AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南
Spaceack: ChromaDB 是一个向量数据库，用于存储和检索嵌入向量，这些向量通常是由机器学习模型生成的，用于表示文本、图像或其他类型的数据在多维空间中的位置。向量中的数字并不是人为随机规定的，而是由特定的算法根据输入数据的特征计算出来的。例如，对于文本数据，一个常见的做法是使用预训练的Transformer模型（如BERT、RoBERTa等）来生成嵌入向量。当使用ChromaDB进行查询时，如果结果不准确或者不包含期望的结果，可能有以下几个原因：嵌入向量的质量：如果用于创建嵌入向量的模型没有很好地捕捉到数据的语义特征，那么查询结果可能就不够准确。你可以尝试使用更高质量的模型或者调整模型参数以获得更好的嵌入。查询向量的构建：确保你的查询向量与数据库中的向量是在相同的上下文中生成的，且使用了相同的模型和参数。相似度度量：ChromaDB允许你选择不同的相似度度量方法，如余弦相似度、欧几里得距离等。选择不当可能会导致查询结果不理想。数据集的覆盖范围：如果你的数据库中缺乏与查询相关的数据，那么就不可能找到匹配的结果。这可能需要更多的数据或更全面的数据集。查询参数：确保你使用的查询参数（如返回的最近邻的数量）是合理的。数据更新：如果数据库中的数据已经更新，但是你仍然在使用旧的嵌入向量，那么查询结果可能不会反映最新的数据状态。针对查询结果不准确的问题，你可以尝试以下步骤来改进：重新训练嵌入模型：使用更高质量的训练数据或更复杂的模型架构。调整相似度阈值：根据实际情况调整相似度度量的阈值。增加数据多样性：确保数据库中的数据足够多样，能够覆盖各种可能的查询情况。检查和更新数据：确保所有数据都是最新的，并且嵌入向量也反映了最新的数据状态。优化查询策略：尝试不同的查询策略，比如使用更复杂的查询逻辑或增加查询的上下文信息。如果问题依旧存在，你可能需要更深入地分析具体案例，以确定具体的原因并采取相应的措施。
AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南
Wmpreturn: 想问一下，embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],等中的数字是怎么得来的？还是人为规定查embeddings值为这几个数字的？此外，查询结果不准该怎么办呢？查到的结果中不包含我想要的。
AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南
Creamlittlemoon: 猫猫! 🐱

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Spaceack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。