python3 解决&#开头的Unicode编码的字符串问题的通用方法

最新推荐文章于 2025-04-13 10:23:42 发布

zhaojiafu666

最新推荐文章于 2025-04-13 10:23:42 发布

阅读量1.4k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/weixin_42081389/article/details/115721127

版权

python 专栏收录该内容

67 篇文章

订阅专栏

文章目录

需求：
解决步骤：

需求：

如果有一串字符串，含有&#的特殊字符串，如何解决，我尝试之后，放入html页面中，使用浏览器打开是正常的。

最后搜到了一篇文章：
https://blog.csdn.net/WindyQCF/article/details/71435145

然后我就想着用HTMLParser模块，结果各种报错，最终还是解决了。

解决步骤：

1、安装HTMLParser模块：

pip install HTMLParser

在这里插入图片描述

当时安装之后不能直接使用。

2、解决报错：ModuleNotFoundError: No module named ‘markupbase’

说是缺少：markupbase模块，然后搜了半天，都没有这个模块。

最后找到一个：micropython-_markupbase模块，但是安装不上，又报错。
https://pypi.org/project/micropython-_markupbase/#files

再往后，我找到一个百度步骤：
https://jingyan.baidu.com/article/48b558e3eede697f39c09a6c.html

说是把，micropython-_markupbase下载解压，然后把_markupbase.py放入到：python安装位置的，\Lib\site-packages目录下面。

在这里插入图片描述

然后复制到里面还是不行，最后我想着是不是需要把_markupbase.py的_markupbase名称改为markupbase，然后就不报这个错了。

3、报`unichr`错误：`NameError: name 'unichr' is not defined`

然后找到一篇文章：
http://www.voidcn.com/article/p-wcuodcym-btb.html

意思就是python中这个方法改为了chr。

然后把报错位置的D:\python_work_tools\Python37\Lib\site-packages\HTMLParser.py
文件，中的俩处unichr，改为chr函数。
在这里插入图片描述

4、再次运行代码，成功。

import HTMLParser

s = '&#x3010;&#x8BD5;&#x547C;&#x3011;'
h = HTMLParser.HTMLParser()
print(h.unescape(s))

在这里插入图片描述

5、根据歌词需求进行一个整改：

#coding=utf-8
import HTMLParser
import re


class Replace_Unicode_str(object):

    def get_set_chars(self, str_text):
        list_result = re.findall('&#.*?;', str_text)
        list_result = list(set(list_result))
        return list_result


    def extract_unicode(self,list_result):
        result_json = {}
        for list_one in list_result:
            h = HTMLParser.HTMLParser()
            value = h.unescape(list_one)
            result_json[list_one] = value
        return result_json

    def replace_str(self, result_json,str_):
        for key in result_json.keys():
            val = result_json[key]
            str_ = str_.replace(key,val)
        return str_

    def run_start(self,s):
        list_result = self.get_set_chars(s)
        result_json = self.extract_unicode(list_result)
        s_result = self.replace_str(result_json, s)
        return s_result

if __name__ == '__main__':
    # import HTMLParser
    #
    # s = '&#x3010;&#x8BD5;&#x547C;&#x3011;'
    # h = HTMLParser.HTMLParser()
    # print(h.unescape(s))
    s = "[ti&#58;牵丝戏]&#10;[ar&#58;Aki阿杰]&#10;[al&#58;在线热搜（华语）系列96]&#10;[by&#58;]&#10;[offset&#58;0]&#10;[00&#58;00&#46;11]牵丝戏&#32;&#45;&#32;银临/Aki阿杰&#10;[00&#58;01&#46;88]词：Vagary&#10;[00&#58;02&#46;44]曲：银临&#10;[00&#58;03&#46;28]&#10;[00&#58;24&#46;55]银：嘲笑谁恃美扬威&#10;[00&#58;28&#46;52]&#10;[00&#58;30&#46;16]没了心如何相配&#10;[00&#58;34&#46;15]&#10;[00&#58;34&#46;97]盘铃声清脆&#10;[00&#58;37&#46;80]帷幕间灯火幽微&#10;[00&#58;40&#46;63]我和你&#32;最天生一对&#10;[00&#58;45&#46;22]&#10;[00&#58;46&#46;94]没了你才算原罪&#10;[00&#58;50&#46;89]&#10;[00&#58;52&#46;59]没了心才好相配&#10;[00&#58;56&#46;50]&#10;[00&#58;57&#46;22]你褴褛我彩绘&#10;[00&#58;59&#46;93]并肩行过山与水&#10;[01&#58;02&#46;80]你憔悴&#32;我替你明媚&#10;[01&#58;07&#46;74]&#10;[01&#58;08&#46;42]是你吻开笔墨&#10;[01&#58;11&#46;35]染我眼角珠泪&#10;[01&#58;14&#46;07]演离合相遇悲喜为谁&#10;[01&#58;18&#46;92]&#10;[01&#58;19&#46;68]他们迂回误会&#10;[01&#58;22&#46;47]我却只由你支配&#10;[01&#58;25&#46;11]问世间哪有更完美&#10;[01&#58;30&#46;26]Aki：兰花指捻红尘似水&#10;[01&#58;35&#46;96]三尺红台&#32;万事入歌吹&#10;[01&#58;41&#46;62]唱别久悲不成悲&#10;[01&#58;44&#46;67]十分红处竟成灰&#10;[01&#58;47&#46;47]愿谁记得谁&#32;最好的年岁&#10;[01&#58;53&#46;58]&#10;[02&#58;16&#46;30]银：你一牵我舞如飞&#10;[02&#58;20&#46;17]&#10;[02&#58;21&#46;82]你一引我懂进退&#10;[02&#58;25&#46;86]&#10;[02&#58;26&#46;53]苦乐都跟随&#10;[02&#58;29&#46;31]举手投足不违背&#10;[02&#58;32&#46;01]将谦卑&#32;温柔成绝对&#10;[02&#58;37&#46;05]&#10;[02&#58;37&#46;83]你错我不肯对&#10;[02&#58;40&#46;47]你懵懂我蒙昧&#10;[02&#58;43&#46;23]心火怎甘心扬汤止沸&#10;[02&#58;48&#46;09]&#10;[02&#58;48&#46;99]你枯我不曾萎&#10;[02&#58;51&#46;72]你倦我也不敢累&#10;[02&#58;54&#46;32]用什么暖你一千岁&#10;[02&#58;59&#46;93]Aki：风雪依稀秋白发尾&#10;[03&#58;05&#46;36]灯火葳蕤&#32;揉皱你眼眉&#10;[03&#58;10&#46;84]假如你舍一滴泪&#10;[03&#58;14&#46;06]假如老去我能陪&#10;[03&#58;16&#46;63]烟波里成灰&#32;也去得完美&#10;[03&#58;22&#46;07]风雪依稀秋白发尾&#10;[03&#58;27&#46;61]灯火葳蕤&#32;揉皱你眼眉&#10;[03&#58;33&#46;13]假如你舍一滴泪&#10;[03&#58;36&#46;32]假如老去我能陪&#10;[03&#58;39&#46;14]烟波里成灰&#32;也去得完美"
    replac_unicode = Replace_Unicode_str()
    s_result = replac_unicode.run_start(s)
    print("s_result",s_result)