含html转义字符编码(四)转换--python

最新推荐文章于 2023-08-25 10:51:48 发布

儒雅的啷当

最新推荐文章于 2023-08-25 10:51:48 发布

阅读量382

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40659982/article/details/88071414

版权

含html转义字符编码(四)转换--python

在抓取下来的网页源码显示的是如下的内容,而不是可读性的汉字

（当然，如果是在Web页面上展示，则实体会自动被浏览器转为原字符，正常显示）

经查资料后得知, 在网页中以四开头的是HTML实体,具体什么是HTML实体,请百度:http://baike.baidu.com/view/4757776.htm

如何把汉字转换成HTML实体呢？

其实很简单，汉字的HTML实体由三部分组成，”&#+ASCII+;“ 即可。

Python中提供了一个模块：HTMLParser，里面有很多好用的方法，

我们可以使用：dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性，其中有一个方法：unescape()，

再使用：help(HTMLParser.HTMLParser.unescape)，可以看到该方法的说明信息，但是几乎没什么用。其实该方法就是将HTML实体（带有&#符号打头的）进行解码，转换为原有字符。下面是简单实例：

import HTMLParser

def decodeHtml(input):
    h = HTMLParser.HTMLParser()
    s = h.unescape(input)
return s

c = (含html转义字符的内容, 如需测试请自行粘贴)
print decodeHtml(c )

posted @ 2018-07-20 17:06 python许三多阅读( ...) 评论( ...) 编辑收藏

儒雅的啷当

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
含html转义字符编码(四)转换--python

含html转义字符编码(&amp;#22235;)转换--python 在抓取下来的网页源码显示的是如下的内容,而不是可读性的汉字（当然，如果是在Web页面上展示，则实体会自动被浏览器转为原字符，正常显示）经查资料后得知, 在网页中以四开头的是HTML实体,具体什么是HTML实体,请百度:http://baike.baidu.com/view/...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。