php去掉多字节_从字符串PHP中删除多字节空格

将u标志添加到正则表达式中.这使得RegEx引擎将输入字符串视为UTF-8.

$keywords = preg_replace("@[  ]@u", ' ',urldecode($keywords));

// outputs :'ラメ単色'

它破坏字符串的原因是因为RegEx引擎,你的替换字符,20(空格)或e3 80 80(IDEOGRAPHIC SPACE)不被视为两个字符,而是单独的字节20,e3和80.

当你查看要扫描的字符串的字节序列时,我们得到e3 80 80 e3 83 a9 e3 83 a1 e5 8d 98 e8 89 b2.我们知道第一个字符是IDEOGRAPHIC SPACE,但是因为PHP将它视为一个字节序列,它会单独替换前四个字节,因为它们匹配正则表达式引擎正在扫描的单个字节.

对于导致 (REPLACEMENT CHARACTER)的重整,我们可以看到这种情况发生,因为字节e3在字符串中进一步出现. e3字节是三字节长日文字符的起始字节,例如e3 83 a9(KATAKANA LETTER RA).当前导e3被替换为20(空格)时,它不再成为有效的UTF-8序列.

当您启用u标志时,RegEx引擎将字符串视为UTF-8,并且不会基于每个字节处理字符类中的字符.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值