字符串中的不可见字符

最近用datax导入数据到pipeline的时候,碰到一个报脏数据的错误,检查后发现字符串包含\u0000和\u007f,就以为是这两个unicode字符搞的鬼,写了正则 unicode.replaceAll("[\\s+[\\u007f]\\s+]", "") 来匹配,还是会报脏数据,原始的字符串是下面这个样子的:

12345678 \u0000  \u007f  

这里能看到方框,在eclipse和sublime里都是看不到的= =

查了很多匹配\u0000的方法,最后发现是不可见字符的问题

用\p{C}匹配就解决啦~:

unicode.replaceAll("[\\s+\\p{C}\\s+]", "");

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值