Python中如何进行HTML特殊字符与Unicode代码的转换


======================================================
注:本文源代码点此下载
======================================================

python中如何进行html特殊字符与unicode代码的转换

在处理html内容的时候经常会遇到&# 1405;&# 816;、 这样的怪字符,一般称为html特殊符号,而&#后面加一串数值,则是网页中unicode的表示形式。

html特殊符号编码对照表

通过cgi模块中的escape函数可以将常见的特殊符号转换为html的表现形式,但要转换回来,cgi模块并没有提供unescape这样的函数。

在网上找到一篇介绍如何进行这种反向转换的文章:escaping html

另外,如果得到的html代码中含有&# 1405;&# 816;这样的unicode代码,可以使用unichr函数来进行转换:

代码

def unescape_word(s):

words = re.findall("&#(\d+);", s)

if words:

result = unicode(s, "gb18030")

u = unicode()

for word in map(int, words):

h, l = word / 0x100, word % 0x100

u = unichr(l * 0x100 + h)

result = result.replace("&#%s;" % word, u)

result = result.encode("gb18030")

else:

result = s

return result

标签: python

绿色通道:好文要顶关注我收藏该文与我联系

posted @ 2010-07-27 15:32 叮叮当当 阅读(391) 评论(0)编辑 收藏


======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值