关于Basic Latin踩到的一些坑

目录

在wiki中,很多语言的字符集都包含了Basic Latin,一开始我没有细看,以为Basic Latin里面都是正常的字符集,后来在线上环境出现了问题

博主某天接到一个需求,需要过滤出某国语言的字符集(避免出现Unicode中的不可见字符),于是高高兴兴的在维基百科上找到该语言字符集抄了下来

嗯,于是,线上环境出了一点小问题,由于我们某些功能是依赖于Basic Latin里面的特殊字符来做分割的,博主过于年轻,没有细看,于是翻车,卒,享年22岁。

先看看Basic Latin里面到底是什么:https://jrgraphix.net/r/Unicode/0020-007F

仔细看里面其实有很多特殊字符的,所以大多数程序员一般都会在正则表达式里面写0-9a-zA-Z来表示Basic Latin里面的东西,为什么不直接写\x0020-\x007F是有用意,以后看见一些东西还是不要随意忽略,就像为什么写0-9a-zA-Z来表示\x0020-\x007F,你以为别人是傻逼,写这么一长串干啥,实际上你是傻逼。

转载于:https://www.cnblogs.com/daryl-blog/p/11003081.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值