python爬虫 标签对网页内容解析的影响

一 、 第一种是标签嵌套的情况,直接上图。

如上图这种情况,直接使用 .xpath("//div/ul[@class='show']/text()")[0]或者 xpath('string(//p[@class="test"])')是拿不到被<em></em>标签括在里面的内容的,如果单独获取em标签内容的话,拼接的字符串容易乱套,最好还是一次性拿到字符串。

通过搜索引擎发现xpath的.string用法尝试后发现没卵用,八成是版本变迁吧。然后发现element标签里居然有个text属性,里面直接就有这个内容,这就莫名其妙了,不知到为啥我用/text()拿不到,具体操作如下,直接调text。

----------------------------------------------------------------------分割线------------------------------------------------------------------------------------------

ok,这一次居然用

title = dl.xpath('./dt/a')[0]
t1=title.xpath('string(.)').strip()

获取到了值,而.text属性里啥都没有,😔具体情况后面再看了

----------------------------------------------------------------------分割线------------------------------------------------------------------------------------------

 

 

 

二、第二种情况呢?就是json里带标签,看图

 

 

这是某次http请求返还的内容,如图是byte类型数据,通过正则解析后得到json字符串

 

没错,btye类型成功解析成json格式,但是呢,看这个标签,转码之后。

是的,它报错了,这个标签解析不了。

对于前端而言,byte解析后把内容贴到html里直接解析成标签,但我们不能把这玩意也存了。

 

所以,两种解决方案:

 

  • 在byte类型转码前剔除标签内容,转码成中文后保存内容。
  • byte类型解析成json格式,获取dict数据后剔除标签内容。

 

那种方案好呢,我还是采用第二种,毕竟解析json前一个标签除不干净json解析就会失败,二第二种除不干净顶多也就是带点脏数据,相对而言稳定的多。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值