python etree解析记录

背景:

在解析阮大大的博客文章,发给自己阅读的时候,碰到了一些解析方面的问题。

网页的结构是很简单的拼接式的。
在这里插入图片描述

问题:

已经拿到了etree对象解析过后的html对象。

html = etree.HTML(r.text)
article = html.xpath('//article[@class="hentry"]')[0]
entry_content = article.xpath('//div[@class="asset-content entry-content"]')[0]
entry_h2 = entry_content.xpath('//h2/text()')

想打印entry_h2 ,发现打印出来了不属于entry_h2 的部分元素【 ‘相关文章’, ‘广告’, ‘留言(58条)’, ‘我要发表看法’】

在这里插入图片描述
下面这个才是我想要的:
在这里插入图片描述

应改为entry_h2 = entry_content.xpath(‘.//h2/text()’)。
多加的那个点表示从该元素索引。

想打印entry_content 对应的html网页:
打印出来发现是乱码。
在这里插入图片描述
搜索后发现etree.tostring()方法可以将该网页编码转换为含中文的编码,完整的写法如下:
etree.tostring(entry_content,encoding = r.encoding, pretty_print=True, method=“html”).decode(“utf-8”)
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sunbcy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值