先来看一张截图:
可以看到有一些特殊编码。当你在 Python 中单独输出这些编码时,就会显示空字符的效果。如果你熟悉计算机常识,就可以猜测这些和普通的空字符一样效果的组合构成,反复测试后得到初步规律:
(1)后面两位由16进制数字组成。但试到 \ue7f0,出现例外
(2)用 list 转换后可见是一个整体,也无法用替换和拼接。判断" "为不等
(3)可以用 bat 脚本批量输出
(没想到 vscode 对 bat 脚本的高亮显示一般般,还不如记事本 )
cmd 列出的结果,复制到 Python 代码处理下可以接着打印出结果,可以发现以上256个都是空白字符,
当然,在网页数据挖掘中,还可见到其他编码的空字符,比如 \xa0 。故技重施,却出现意外的结果:
最终发现只有少数组合是空字符,且没有明显规律。不得不说,互联网的技术发展真的太多了!