特殊字符<200b><200c><200d>的删除办法与原理

最新推荐文章于 2024-09-13 16:29:15 发布

Leon0204

最新推荐文章于 2024-09-13 16:29:15 发布

阅读量2w

点赞数 3

分类专栏： php 代码规范 linux 文章标签： Unicode php vim bug 特殊字符

本文链接：https://blog.csdn.net/qq_28018283/article/details/54136480

版权

linux 同时被 3 个专栏收录

53 篇文章

订阅专栏

php

40 篇文章

订阅专栏

代码规范

10 篇文章

订阅专栏

今天遇到一个很神奇的bug

一段描述字段，很长一段，中间有如下的字符

这个是在vim 下看到的

但是在php中打印和使用cat看到的情况如下：

这就很神奇了，所以肉眼看不见

尝试解决办法：str_replace <200b>发现没用。

解决办法：

$value = str_replace("\xe2\x80\x8b", '', $value);
$value = str_replace("\xe2\x80\x8c", '', $value);

$value = str_replace("\xe2\x80\x8d", '', $value);

原理：

文字说明：

这些字符其实就是排版过程中产生的，而排版使用的规范是Unicode编码标准

扩展阅读：

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Leon0204

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

特殊字符 U+200X/

AI工程化、开源分享、文档翻译、代码笔记

03-30

992

文章目录多语种Unicode 字符使用字符Python 代码中编解码正则去除 emoji使用 emoji 包Unicode 分布处理大量多语文本，可以看到很多特殊字符，这里陆续将遇到的字符在这里做个总结。查询过程中发现个很好的网站，包含了很多 Unicode 字符的说明，感兴趣可以进入了解下： Unicode 字符百科 https://unicode-table.com/cn/ 格式字符 Unicode编号 Unicode名称 HTML代码 CSS代码 U+200B Zero W

零宽字符应用场景及前端解决方案

不负光阴不负自己，不负被爱不负所爱

09-12

1805

零宽字符（Zero Width Characters）是一类在文本中不可见但具有特定功能的特殊字符。称为零宽字符，也叫幽灵字符。它们在显示时不占据任何空间，但在文本处理和显示中发挥着重要作用。这些字符主要包括零宽度空格、零宽度非连接符、零宽度连接符和零宽度无断行空格等。

1 条评论您还未登录，请先登录后发表或查看评论

vim学习笔记（11）：vim 去掉<200b>

weixin_33785108的博客

03-29

827

vim查看文件，发现多了<200b>字符，使用/200b搜索匹配不上；grep 200b 也匹配不上查询后才知道：200b是：Unicode Character 'ZERO WIDTH SPACE' (U+200B)参见：http://www.fileformat.info/info/unicode/char/200B/index.htm处理方法见：http://superuser.c...

200B

weixin_30537391的博客

07-25

178

#include <stdio.h> int main() { int n; double num; scanf("%d", &n); int i; double sum=0.0; for(i=0; i<n; ++i) { scanf("%lf", &num); sum+=num; } printf...

Linux,文件中＜200b＞中隐藏字符去除

yxhwl1025的专栏

11-13

612

最近做文件连携，发现连携文件vim进去里面一堆<200b>字符。

200b 问题

Zack 的博客

07-25

1092

今天链接redis 出现一个200b 问题, 这里记录一下. 之前,同事给我一个redis 配置, 里面有个auth字段信息, 是通过邮件发送给我的, 我就直接从邮件里面复制出来, 然后黏贴出来, 然后死活就是链接不上redis, 而且配置发过去人家检验页毫无问题. 墨迹了很久发现黏贴出来的字符串还有不可见字符 ,这个是邮件里面来的. 在vim 里面能购清楚的看到, 但是在终端下面

Invalid or unexpected token “\u200b“

zyz00000000的博客

01-06

1369

今天遇到了一个问题，运行程序的时候，Chrome浏览器报了这样的一个错误控制台：未捕获的异常，无效或意外的标记！ Uncaught SyntaxError: Invalid or unexpected token 报错的位置：实际上此处有一个意外的标记"\u200b"，我们在代码中是看不到的，需要手动删除该符号。产生这个符号的原因：我在CSDN上复制代码的时候，使用的是代码片段右上角的那个“复制”按钮，结果就产生了这个符号。 ...

php 过滤字符 b,php-过滤不可见0长度的字符u200B | 傻瓜文档-fooldoc

weixin_33602725的博客

03-11

363

今天用户输入了一段文字：(别辜负了今天。 )，结果触发了业务的产品需求逻辑，不能有四个连续的字符限制，第一眼一看完全没有连续的啊！初步猜测是末尾有空格，结果进行文本删除的时候，发现只有一个可见的空格，后面末尾出现了四个不可见的0长度的字符，要连续删四次．首先先进行问题排查$content="别辜负了今天。 ";$oriJsonContent = json_encode($conte...

java替换特殊字符

青山的博客

09-21

5434

今天处理bug，接口输入特殊字符（零宽空白），一种前端js控制替换特殊字符；一种java后端控制 package com.shallowan.spring.boot.blog; import java.io.IOException; import java.util.regex.Matcher; import java.util.regex.Pattern; public class St...

HTML中的零宽字符

Jinuss的博客

09-13

968

零宽字符

网址里面有个特殊字符-零宽度

叉叉敌的博客

04-22

1583

所见不一定是所得. 网址里面有个特殊字符%E2%80%8B 今天终于活久见, 看上去是一样的, 但是处理不能处理. 看上去是2001603.url编码是2%E2%80%8B001603/ , str(path).split('/')[-1].encode('ascii')=='MAIN_HCP3_AU_ER_G55D_UNIT_DB_2001603' {UnicodeEncodeError...

JavaScript奇技淫巧：隐形字符

w2sft的博客

01-07

1186

本文，分享一种奇特的JS编程技巧，功能是：可以使字符串“隐形”、不可见！

神奇的不可见空格<200b>导致代码异常

WW15253061122的博客

09-26

409

故事是这样发生的，在做一个JSON对象转化的时候，出现了转化异常；刚开始还是以为是格式错误，后来一步步排除，才发现是不可见空格<200b>导致的解析异常出现使用Typora编写文字时，使用Tab会生成神奇的不可见空格发现通过VIM查看文档，会看到<200b>神奇的存在解决 1 . 使用trim()方法可以去除掉神奇的空格 2 . 使用正则表式进行替换re...

codeforces 200D Programming Language 字符串处理

cadongllas的博客

09-07

404

字符串题，基于cpp模板的声明，先声明了n个函数原型，其中T代替任何数据类型，然后给了m种变量的声明，又给了k 个函数的声明，用的是之前那m个变量，问每个函数分别能匹配多少个函数原型先是字符串处理，然后暴力循环，用变量类型替换变量名，直接判断是否匹配然后统计答案即可#include #include #include #include #include #include #

常见Unicode编码范围

热门推荐

落叶Ex的博客

01-17

1万+

常见Unicode编码范围经常我们会用到判断某个字符或者字符串是否包含中文，英文，特殊符号等等。这时候可以通过判断Unicode所在区间来确定某个字符所处类型。当然可以通过直接判断Unicode码，但是鉴于习惯，以下提供的是Unicode码对应的数字区间。毕竟字符的本质也就是通过二进制进行存储编码的而已。汉字：[0x4e00,0x9fa5]（或十进制[19968,40869]）

神奇的不可见空格＜200b＞导致代码异常

wangchaoqi1985的博客

08-15

712

神奇的不可见空格<200b>导致代码异常

深入理解操作系统（5）第三章：程序的机器级表示（1）intel历史+程序编码+算术和逻辑操作（包括：8086/汇编/摩尔/机器级代码/汇编指令/objdump/汇编指令/反汇编/8个常用寄存器/lea

哈尼的博客

11-13

3169

深入理解操作系统（5）第三章：程序的机器级表示（1）intel历史+程序编码+算术和逻辑操作（包括：8086由来/汇编/摩尔定律/机器级代码/汇编指令特性/objdump/汇编指令/反汇编/8个常用寄存器/操作数的三种类型/lea指令/移位操作sall,shll）1. 前言1.1 现代编译器的优点1.2 理解汇编代码的重要性1.3 编译器的优化1.4 精通细节是理解更深和更基本概念的先决条件2. 历史观点-Intel处理器发展2.1 intel历史（8086由来）2.2 IA32-Intel32位体系结构2

关于指针

qq_16259125的博客

04-29

424

指针的一些基础知识 1、指针的定义数据在内存中的地址也称为指针，如果一个变量存储了一份数据的指针，我们就称它为指针变量。在C语言中，允许用一个变量来存放指针，这种变量称为指针变量。指针变量的值就是某份数据的地址，这样的一份数据可以是数组、字符串、函数，也可以是另外的一个普通变量或指针变量。对于普通变量，在内存中需要通过占用内存的某个地址的。因此指针可以通过这个内存地址去找到这个变量。假设定义一个char a = ‘K’；，该a变量在内存地址0x110下存储了字符’K’。我们如何通过指针来找到字符a所

Line 3: Char 1: warning: treating Unicode character as whitespace [-Wunicode-whitespace] 3 | int removeElement(vector<int>& nums, int val)