准确爬取两个关键标签节点之间的内容

最新推荐文章于 2023-01-06 18:57:42 发布

小太阳☀️

最新推荐文章于 2023-01-06 18:57:42 发布

阅读量4.8k

点赞数

分类专栏：爬虫文章标签： xpath 正则 lxml

本文链接：https://blog.csdn.net/qq_38105596/article/details/82799426

版权

问题描述

很开心，这是抓数据以来一直遇到的一个问题，虽然不能说是很完美，但是至少比每次用xpath中的position或者加各个判断来获取想要的数据为好。肯定都好奇是啥问题了

问题描述：想要获取的数据在一个div中的各个p标签中，一段一段的，没有唯一id，就算有也只能获取一段话，其余的就不能准确获取了，上图展示：

解决思路

正则匹配需要加标签的内容的首尾
用加个唯一id值得div标签将需要采集的内容框起来
使用lxml包中的etree将HTML字符串格式化成HTML，这样就能使用用xpath获取数据了

代码展示

import re
html1 = """
<div id="tmpl_cbins_main" class="ow_block">
	<h3>Chair</h3>
	<span class="h3_hp_black">Admission Requirements</span>
	<p>Review sections&nbsp; and 2.1.6 Additional Admission Requirements.</p>
	<p><a class="trackExternal"

最低0.47元/天解锁文章

小太阳☀️

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
准确爬取两个关键标签节点之间的内容

问题描述很开心，这是抓数据以来一直遇到的一个问题，虽然不能说是很完美，但是至少比每次用xpath中的position或者加各个判断来获取想要的数据为好。肯定都好奇是啥问题了问题描述：想要获取的数据在一个div中的各个p标签中，一段一段的，没有唯一id，就算有也只能获取一段话，其余的就不能准确获取了，上图展示：解决思路正则匹配需要加标签的内容的首尾用加个唯一id值得di...
复制链接

扫一扫