[007]爬虫系列 | \u 和 &#x 引起的一系列问题

最新推荐文章于 2022-09-27 18:19:45 发布

Zero Ice

最新推荐文章于 2022-09-27 18:19:45 发布

阅读量1.2k

点赞数 2

分类专栏： [007]爬虫系列文章标签： Unicode解码 u与 #x区别爬虫与反爬虫编码UTF-16 Unicode分析

本文链接：https://blog.csdn.net/weixin_41593408/article/details/105155778

版权

[007]爬虫系列专栏收录该内容

25 篇文章 46 订阅

订阅专栏

一、背景

爬虫的朋友，也许或多或少都遇见过以下问题：

昨天晚上，一个朋友突然给我发上上面的截图，并询问：

1.1引出问题1

为什么解码不行？ 在此引入一篇文章《字符串和编码》

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

Unicode是什么？

Unicode不是编码格式，而是字符集。这个字符集包含了世界上目前所有的符号。
另外，在原来有些字符可以用一个字节即8位来表示的，在Unicode将所有字符的长度全部统一为16位，因此字符是定长的。

Unicode是长这样的：

\u4e2d\u6587

测试代码：

>>> '\u4e2d'
'中'
>>> '&#x4e2d'
'&#x4e2d'

上面得出，你心中是否存在这样的疑问？

当然：很明显特吸引眼球的就是他们的前缀：&#x 与 \u ！！！ 为什么\u 可以直接得出编码后的结果而 &#x不可以？

这里我们就当作 &#x 是一个『编码』来询问一番！！！（注：仅仅是当作）

二、编码&解码区别

我们先来看一下decode 和 encode函数什么意思吧！

decode：

#!/usr/bin/python
 
str = "this is string example....wow!!!";
str = str.encode('base64','strict');
 
print "Encoded String: " + str;
print "Decoded String: " + str.decode('base64','strict')


#Encoded String: dGhpcyBpcyBzdHJpbmcgZXhhbXBsZS4uLi53b3chISE=

#Decoded String: this is string example....wow!!!

encode:

#!/usr/bin/python

str = "this is string example....wow!!!";

print "Encoded String: " + str.encode('base64','strict')


# Encoded String: dGhpcyBpcyBzdHJpbmcgZXhhbXBsZS4uLi53b3chISE=

三、编码&解码测试

Unicode编码&解码：

UTF-8编码&解码：

经过一轮测试，为什么还没有出现 &#x? 这个到底是什么？

四、编码方向询问

首先，我们先从上面演示的UTF-8编码入手：

b'\xe4\xb8\xad\xe5\x9b\xbd'

\x是什么？0x又是什么？

0x	表示十六进制的int型变量
\x	表示十六进制的字符型变量
'\x61'	表示str型，ASCII码为十进制97的字符，即'a'
0x61	表示int型的97
b'\x61'	表示bytes型的b'a'

\u与\x什么区别？

\u	\u之后跟4位十六进制数。取值范围：\u0000 到 \uffff
\x	\x之后跟2位十六进制数。取值范围：\x00 到 \xff

\xe4\xb8\xad 怎样计算才能变成 \u4e2d? ( ’中‘ 字的Unicode编码和UTF-8编码 )

我们查阅Unicode-Table可得：

Unicode编码得出的结果居然与UTF-16编码如此类似！！！

实质上：由UTF全称可知（Unicode/UCS Transformation Format）即：Unicode转做某种格式的意思 => UTF-16是Unicode的其中一个使用方式！！！

注意：

万万不可以说UTF-16就是Unicode编码。因为Unicode是由2byte组成的，而大多数UTF-16也是又2byte组成的，但是也存在有4byte组成的。例如：中国文字大部份是两字节，有的是四字节！！！

根据资料《字符编码五层次模型》第三层可知：

Unicode值大于0x10FFFF不能按照UTF-16进行编码！

截图来源于《UTF-16 维基百科》

我们根据查看Unicode-Table可知道解码后的字符。

到了这里你是否就以为问题已经解决了？当然还没！！！我们上面仅仅是将其当作是编码来去寻找答案，我们最终的问题还没解决：&#x到底是什么？ \u4e2d 与 &#x4e2d的区别？

五、解决问题

这个问题从『编码』方面想了很久，还是不能解决！！！最后再知乎上面看到一条评论

&#x它不是『编码』，而是SGML类语言的转义序列！！！

六、验证

from html.parser import HTMLParser
HTMLParser().unescape('&#x4e2d')

#'中'

成功解决！！！

参考文献：

『廖雪峰官网=>Python 字符串和编码』：https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896

『维基百科=>UTF-16 』：https://zh.wikipedia.org/wiki/UTF-16

『 Unicode Table 』：https://unicode-table.com/

『知乎=> 评论』：https://www.zhihu.com/question/21390312

Zero Ice

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
[007]爬虫系列 | \u 和 &#x 引起的一系列问题

一、背景爬虫的朋友，也许或多或少都遇见过以下问题：昨天晚上，一个朋友突然给我发上上面的截图，并询问：1.1引出问题1为什么解码不行？在此引入一篇文章《字符串和编码》浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：Unicode是什么？Unicode不是编码格式，而是字符集。这个字符集包含了世界上目前所有的符号。另...
复制链接

扫一扫

专栏目录