转换如 & # x4E0A;& # x 6D77; 的编码为中文

最新推荐文章于 2021-07-04 12:16:09 发布

李先sheng

最新推荐文章于 2021-07-04 12:16:09 发布

阅读量3.5k

点赞数

分类专栏： python 文章标签：编码转换

本文链接：https://blog.csdn.net/weixin_41767339/article/details/103967982

版权

python 专栏收录该内容

45 篇文章 0 订阅

订阅专栏

如题我们得到某度的一段标签

<div class="c-tools" id="tools_3991411268111956563_1" data-tools="{&quot;title&quot;:&quot;&#x4F5B;&#x5C71;&#x5E02;&#x6C49;&#x8FEA;&#x68EE;&#x95E8;&#x7A97;&#x7CFB;&#x7EDF;&#x6709;&#x9650;&#x516C;&#x53F8;_&#x63A8;&#x62C9;&#x95E8;_&#x5E73;&#x5F00;&#x95E8;_&#x5E73;&#x5F00;&#x7A97;&quot;,&quot;url&quot;:&quot;http://www.baidu.com/link?url=3DY9JDzURlEJy1ETHTrsnaJZr3fnaRpkL9ngwZZnynPFxbAWubP8jqJIq85StwFz&quot;}"><a class="c-tip-icon"><i class="c-icon c-icon-triangle-down-g"/></a></div>

    def convert(self,s):
        s = s.strip('&#x;')  # 把'&#x957f;'变成'957f'
        s = bytes(r'\u' + s, 'ascii')  # 把'957f'转换成b'\\u957f'
        return s.decode('unicode_escape')

" 不再描述直接replace 或者sub进行剔除转换即可

#首先提取目标内容
res = re.findall('data-tools="{title:(.*),url:', content)

title = re.sub(r'&#x....;', lambda match: self.convert(match.group()), res[0])

try:
    title = json.loads('"%s"' % title )  # \\u4e0a\\u6d77\\u4e30\\u9091 广告栏标签会出现 u开头编码字符
except:
    pass

#打印结果
#>>> 佛山市....公司

二、将unicode编码转换为汉字的方法

str = '\u4eac\u4e1c\u653e\u517b\u7684\u722c\u866b'
 
#方法1 使用unicode_escape 解码
print str.decode('unicode_escape')
print unicode(str, 'unicode_escape')
 
#方法2：若为json 格式，使用json.loads 解码
print json.loads('"%s"' %str)
 
#方法3：使用eval
print eval('u"%s"' % str)
 
#方法4：使用python3

李先sheng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
转换如 & # x4E0A;& # x 6D77; 的编码为中文

如题我们得到某度的一段标签<div class="c-tools" id="tools_3991411268111956563_1" data-tools="{&quot;title&quot;:&quot;&#x4F5B;&#x5C71;&#x5E02;&#x6C49;&#x8FEA;&#x68EE;&#...
复制链接

扫一扫