python中的ascii码是啥_python ascii码到u

如果您不了解底层机制,很难解释UnicodeErrors。你真的应该读其中的一个或两个

简而言之,Unicode码位是一个抽象的“东西”,表示一个字符1。程序员喜欢使用它们,因为我们喜欢把字符串看作一次只出现一个字符。不幸的是,很久以前就有规定,一个字符必须能容纳一个字节的内存,因此最多只能有256个不同的字符。这对普通英语来说很好,但对其他任何东西都不管用。有一个全局的代码点列表,数千个代码点是用来存放所有可能的字符的,但是很明显它们不适合一个字节。在

解决方案:组成一个字符串的代码点的有序列表与其作为字节序列的编码有区别。当你处理一个字符串时,你必须清楚它应该是哪种形式。在

要在两种形式之间进行转换,可以.encode()将代码点列表(Unicode字符串)作为字节列表,.decode()字节转换为代码点列表。为此,您需要知道如何将代码点映射为字节,反之亦然,这就是编码。如果您不指定一个,Python2.x将猜测您的意思是ASCII。如果这个猜测是错误的,您将得到一个UnicodeError。在

请注意,Python3.x在处理Unicode字符串方面要好得多,因为字节和代码点之间的区别更加明确。在

1差不多。在

编辑:我想我应该指出这有什么帮助。但你真的应该看看上面的链接!在任何地方都加入.encode()s和.decode()s是一种糟糕的编码方式,总有一天你会被更糟糕的问题缠住。在

不管怎样,如果你一步一步地完成你在shell中所做的事情,你会看到的>>> from HTMLParser import HTMLParser

>>> text = "македонија"

>>> hparser = HTMLParser()

>>> text = hparser.unescape(text)

>>> text

u'\u043c\u0430\u043a\u0435\u0434\u043e\u043d\u0438\u0458\u0430'

我在这里使用的是python2.7,因此这是一个Unicode字符串,即Unicode代码点的序列。我们可以把它们编码成一个普通的字符串(即字节列表),比如

^{pr2}$

但我们也可以选择不同的编码方式!在>>> text.encode("utf-16")

'\xff\xfe\x04=\x048\x04X\x040\x04'

您需要决定使用什么编码。在

你做的时候出了什么问题?不是每个编码都能理解每个代码点。尤其是,"ascii"编码只理解前256个!所以如果你尝试>>> text.encode("ascii")

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

你只会得到一个错误,因为你不能用ASCII编码这些代码点。在

当您执行req.write操作时,您正试图在请求中写下代码点列表。但是HTML请求不理解代码点:它们只是使用ASCII。python2将尝试通过自动对Unicode字符串进行ASCII编码来提供帮助,如果它们真的是ASCII的话,这是很好的,但如果不是ASCII字符串就不行了

所以你需要做req.write(hparser.unescape(text).encode("some-encoding"))。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值