python3.5之输出HTML实体字符

出  关①   徐兰

凭山俯海古边州, 旆②影风翻见戍楼。

 马后桃花马前雪,出关争得不回头?

[注]关,指居庸关。②旆(pèi),旌旗。

 

刚刚学习用python写爬虫,实战一下。

抓取出一个网页的内容之后,里面带有很多①这样的特殊字符。

这些字符去掉还不行,必须要显示出来。

一路,百度、google最后终于找到了方法。

特写此博文,记录下来。

使用python中html.unescape()方法就可以输出html中的实体字符

 1 #!/usr/bin/env python
 2 # encoding: utf-8
 3 """
 4 出  关①   徐兰
 5 凭山俯海古边州, 旆②影风翻见戍楼。
 6 马后桃花马前雪,出关争得不回头?
 7 [注]①关,指居庸关。②旆(pèi),旌旗。
 8 """
 9 import html
10 string = '[注]&#9312关,指居庸关。&#9313旆(pèi),旌旗。'
11 print(html.unescape(string))    #[注]①关,指居庸关。②旆(pèi),旌旗。

 

转载于:https://www.cnblogs.com/gdkl/p/5319514.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值