网页里的迷之空字符

        先来看一张截图:

可以看到有一些特殊编码。当你在 Python 中单独输出这些编码时,就会显示空字符的效果。如果你熟悉计算机常识,就可以猜测这些和普通的空字符一样效果的组合构成,反复测试后得到初步规律:

        (1)后面两位由16进制数字组成。但试到 \ue7f0,出现例外

        (2)用 list 转换后可见是一个整体,也无法用替换和拼接。判断" "为不等

        (3)可以用 bat 脚本批量输出

        

(没想到 vscode 对 bat 脚本的高亮显示一般般,还不如记事本 )

cmd 列出的结果,复制到 Python 代码处理下可以接着打印出结果,可以发现以上256个都是空白字符,

        当然,在网页数据挖掘中,还可见到其他编码的空字符,比如 \xa0 。故技重施,却出现意外的结果:

 最终发现只有少数组合是空字符,且没有明显规律。不得不说,互联网的技术发展真的太多了!

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值