python爬虫标签对网页内容解析的影响

最新推荐文章于 2024-05-16 11:21:35 发布

sin_404

最新推荐文章于 2024-05-16 11:21:35 发布

阅读量500

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/sin_404/article/details/103135956

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

一、第一种是标签嵌套的情况，直接上图。

如上图这种情况，直接使用 .xpath("//div/ul[@class='show']/text()")[0]或者 xpath('string(//p[@class="test"])')是拿不到被<em></em>标签括在里面的内容的，如果单独获取em标签内容的话，拼接的字符串容易乱套，最好还是一次性拿到字符串。

通过搜索引擎发现xpath的.string用法尝试后发现没卵用，八成是版本变迁吧。然后发现element标签里居然有个text属性，里面直接就有这个内容，这就莫名其妙了，不知到为啥我用/text()拿不到，具体操作如下，直接调text。

----------------------------------------------------------------------分割线------------------------------------------------------------------------------------------

ok，这一次居然用

title = dl.xpath('./dt/a')[0]
t1=title.xpath('string(.)').strip()

获取到了值，而.text属性里啥都没有，😔具体情况后面再看了

----------------------------------------------------------------------分割线------------------------------------------------------------------------------------------

二、第二种情况呢？就是json里带标签，看图

这是某次http请求返还的内容，如图是byte类型数据，通过正则解析后得到json字符串

没错，btye类型成功解析成json格式，但是呢，看这个标签，转码之后。

是的，它报错了，这个标签解析不了。

对于前端而言，byte解析后把内容贴到html里直接解析成标签，但我们不能把这玩意也存了。

所以，两种解决方案：

在byte类型转码前剔除标签内容，转码成中文后保存内容。
byte类型解析成json格式，获取dict数据后剔除标签内容。

那种方案好呢，我还是采用第二种，毕竟解析json前一个标签除不干净json解析就会失败，二第二种除不干净顶多也就是带点脏数据，相对而言稳定的多。

sin_404

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫标签对网页内容解析的影响

一、第一种是标签嵌套的情况，直接上图。如上图这种情况，直接使用 .xpath("//div/ul[@class='show']/text()")[0]是拿不到被<em></em>标签括在里面的内容的，如果单独获取em标签内容的话，拼接的字符串容易乱套，最好还是一次性拿到字符串。通过搜索引擎发现xpath的.string用法尝试后发现没卵用，八成是版本变迁吧。...
复制链接

扫一扫