python编码转换在线_python实现html代码转义转换

最新推荐文章于 2023-01-13 23:09:21 发布

weixin_39649965

最新推荐文章于 2023-01-13 23:09:21 发布

阅读量384

点赞数

文章标签： python编码转换在线

之前记录了从网上翻来的 Python HTMLParser处理HTML转义字符文档。不过在对带有中文字符的内容进行处理的时候会报错，代码如下：

# cat html.py

#/usr/bin/python

#coding=utf-8

import HTMLParser

html_parser = HTMLParser.HTMLParser()

title = 'eclipse功能<template>学习。e.g : 快速在代码中插入时间戳 - 361way.com'

newtitle = html_parser.unescape(title)

print newtitle

报错内容如下：

Traceback (most recent call last):

File "html.py", line 7, in

newtitle = html_parser.unescape(title)

File "/usr/lib64/python2.6/HTMLParser.py", line 390, in unescape

return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|w{1,8}));", replaceEntities, s)

File "/usr/lib64/python2.6/re.py", line 151, in sub

return _compile(pattern, 0).sub(repl, string, count)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)

解决方法如下：

#/usr/bin/python

#coding=utf-8

import HTMLParser

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

html_parser = HTMLParser.HTMLParser()

title = 'eclipse功能<template>学习。e.g : 快速在代码中插入时间戳 - SegmentFault'

newtitle = html_parser.unescape(title)

print newtitle

需要载入sys模块，重新设置默认编码为utf8，就不会出错了。不过要处理的内容只不过是一个文章的title部分，而常用的html转义内容也就如下几个：字符十进制转义字符

"""

&&&

<<<

>>>

不断开空格(non-breaking space)

于是决定使用python的replace功能实现一个简单的转义功能函数，具体如下：

#/usr/bin/python

#coding=utf-8

def replace_html(s):

s = s.replace('"','"')

s = s.replace('&','&')

s = s.replace('<','<')

s = s.replace('>','>')

s = s.replace(' ',' ')

s = s.replace(' - 361way.com','')

print s

replace_html(title)

优点就是快速简洁，不依赖于模块，实用时也无需再reload sys模块指定默认编码。

weixin_39649965

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python编码转换在线_python实现html代码转义转换

之前记录了从网上翻来的 Python HTMLParser处理HTML转义字符文档。不过在对带有中文字符的内容进行处理的时候会报错，代码如下：# cat html.py#/usr/bin/python#coding=utf-8import HTMLParserhtml_parser = HTMLParser.HTMLParser()title = 'eclipse功能<template&g...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。