一 、 第一种是标签嵌套的情况,直接上图。
如上图这种情况,直接使用 .xpath("//div/ul[@class='show']/text()")[0]或者 xpath('string(//p[@class="test"])')是拿不到被<em></em>标签括在里面的内容的,如果单独获取em标签内容的话,拼接的字符串容易乱套,最好还是一次性拿到字符串。
通过搜索引擎发现xpath的.string用法尝试后发现没卵用,八成是版本变迁吧。然后发现element标签里居然有个text属性,里面直接就有这个内容,这就莫名其妙了,不知到为啥我用/text()拿不到,具体操作如下,直接调text。
----------------------------------------------------------------------分割线------------------------------------------------------------------------------------------
ok,这一次居然用
title = dl.xpath('./dt/a')[0]
t1=title.xpath('string(.)').strip()
获取到了值,而.text属性里啥都没有,😔具体情况后面再看了
----------------------------------------------------------------------分割线------------------------------------------------------------------------------------------
二、第二种情况呢?就是json里带标签,看图
这是某次http请求返还的内容,如图是byte类型数据,通过正则解析后得到json字符串
没错,btye类型成功解析成json格式,但是呢,看这个标签,转码之后。
是的,它报错了,这个标签解析不了。
对于前端而言,byte解析后把内容贴到html里直接解析成标签,但我们不能把这玩意也存了。
所以,两种解决方案:
- 在byte类型转码前剔除标签内容,转码成中文后保存内容。
- byte类型解析成json格式,获取dict数据后剔除标签内容。
那种方案好呢,我还是采用第二种,毕竟解析json前一个标签除不干净json解析就会失败,二第二种除不干净顶多也就是带点脏数据,相对而言稳定的多。