java中的特殊字符集合

JAVA中转义字符:

1.八进制转义序列:\ + 1到3位5数字;范围'\000'~'\377'
      \0:空字符
2.Unicode转义字符:\u + 四个 十六进制数字;0~65535
     \u0000:空字符
3. 特殊字符:就3个
      \": 双引号
     \': 单引号
     \\:反斜线
4. 控制字符:5个

\' 单引号字符

\\ 反斜杠字符

\r 回车

\n 换行

\f 走纸换页

\t 横向跳格

\b 退格

点的转义:. ==> u002E
美元符号的转义:$ ==> u0024
乘方符号的转义:^ ==> u005E
大括号的转义:{ ==> u007B
左方括号的转义:[ ==> u005B
左圆括号的转义:( ==> u0028
竖线的转义:| ==> u007C
右圆括号的转义:) ==> u0029
星号的转义:* ==> u002A
加号的转义:+ ==> u002B
问号的转义:? ==> u003F
反斜杠的转义: ==> u005C
======================================================================
下面的程序使用了两个Unicode的转义字符,它们是用其十六进制代码来表示Unicode字符。那么,这个程序会打印什么呢?
Java代码
public class EscapeRout{  
    public static void main(String[] args){  
        // \u0022 是双引号的Unicode转义字符  
        System.out.println("a\u0022.length()  
+\u0022b".length());  
    }  
}

public class EscapeRout{
    public static void main(String[] args){
        // \u0022 是双引号的Unicode转义字符
        System.out.println("a\u0022.length()
+\u0022b".length());
    }
}


对该程序的一种很肤浅的分析会认为它应该打印出26,因为在由两个双引号"a\u0022.length()+\u0022b"标识的字符串之间总共有26个字符。
稍微深入一点的分析会认为该程序应该打印16,因为两个Unicode转义字符每一个在源文件中都需要用6个字符来表示,但是它们只表示字符串中的一个字符。因此这个字符串应该比它的外表看其来要短10个字符。 如果你运行这个程序,就会发现事情远不是这么回事。它打印的既不是26也不是16,而是2。

理解这个谜题的关键是要知道:Java对在字符串字面常量中的Unicode转义字符没有提供任何特殊处理。编译器在将程序解析成各种符号之前,先将Unicode转义字符转换成为它们所表示的字符[JLS 3.2]。因此,程序中的第一个Unicode转义字符将作为一个单字符字符串字面常量("a")的结束引号,而第二个Unicode转义字符将作为另一个单字符字符串字面常量("b")的开始引号。程序打印的是表达式"a".length()+"b".length(),即2。

如果该程序的作者确实希望得到这种行为,那么下面的语句将要清楚得多:


Java代码
System.out.println("a".length()+"b".length());

更有可能的情况是该作者希望将两个双引号字符置于字符串字面常量的内部。使用Unicode转义字符你是不能实现这一点的,但是你可以使用转义字符序列来实现[JLS 3.10.6]。表示一个双引号的转义字符序列是一个反斜杠后面紧跟着一个双引号(\”)。如果将最初的程序中的Unicode转义字符用转义字符序列来替换,那么它将打印出所期望的16 (错误,应该是14,不知道是怎么会出来16)

Java代码
System.out.println("a\".length()+\"b".length());

许多字符都有相应的转义字符序列,包括单引号(\')、换行(\n)、 制表符(\t)和反斜线(\\)。你可以在字符字面常量和字符串字面常量中使用转义字符序列。
实际上,你可以通过使用被称为八进制转义字符的特殊类型的转义字符序列,将任何ASCII字符置于一个字符串字面常量或一个字符字面常量中,但是最好是尽可能地使用普通的转义字符序列。

普通的转义字符序列和八进制转义字符都比Unicode转义字符要好得多,因为与Unicode转义字符不同,转义字符序列是在程序被解析为各种符号之后被处理的。

ASCII是 字符集的最小公共特性集,它只有128个字符,但是Unicode有超过65,000个字符。一个Unicode转义字符可以被用来在只使用ASCII字符的程序中插入一个Unicode字符。一个Unicode转义字符精确地等价于它所表示的字符。

Unicode转义字符被设计为用于在程序员需要插入一个不能用源文件字符集表示的字符的情况。它们主要用于将非ASCII字符置于标识符、字符串字面常量、字符字面常量以及注释中。偶尔地,Unicode转义字符也被用来在看起来颇为相似的数个字符中明确地标识其中的某一个,从而增加程序的清晰度。

总之,在字符串和字符字面常量中要优先选择的是转义字符序列,而不是Unicode转义字符。Unicode转义字符可能会因为它们在编译序列中被处理得过早而引起混乱。不要使用Unicode转义字符来表示ASCII字符。在字符串和字符字面常量中,应该使用转义字符序列;对于除这些字面常量之外的情况,应该直接将ASCII字符插入到源文件中
Java处理输入字符串特殊字符,通常意味着需要对这些特殊字符进行过滤、替换或删除等操作。这可以通过以下几种方法实现: 1. 使用正则表达式匹配并替换:可以利用`String`类的`replaceAll`方法,结合正则表达式来匹配特定的特殊字符,并将其替换为其他字符或者直接删除。 例如,要移除字符串的所有非字母数字字符,可以使用如下代码: ```java String input = "Hello, World! @2023"; String processed = input.replaceAll("[^a-zA-Z0-9]", ""); System.out.println(processed); // 输出: HelloWorld2023 ``` 2. 使用字符数组过滤:通过遍历字符串的每个字符,并检查它是否属于特殊字符集合,如果属于则不包括在最终结果,否则将其加入结果字符串。 例如,过滤掉所有的空格、标点符号: ```java String input = "Hello, World! 2023"; StringBuilder result = new StringBuilder(); for (char c : input.toCharArray()) { if (!Character.isWhitespace(c) && !Character.isPunctuation(c)) { result.append(c); } } System.out.println(result.toString()); // 输出: HelloWorld2023 ``` 3. 使用Apache Commons Lang库:该库提供了更为丰富的字符串处理工具,例如`StringUtils`类的`deleteWhitespace`方法可以删除字符串的所有空格。 例如,使用Apache Commons Lang删除字符串的空格: ```java // 首先需要引入Apache Commons Lang库的依赖 String input = "Hello, World! 2023"; String processed = StringUtils.deleteWhitespace(input); System.out.println(processed); // 输出: HelloWorld2023 ``` 在处理特殊字符时,选择哪种方法取决于具体的应用场景和需求。有时候需要保留特定的特殊字符,这时候就需要更精细的控制,比如单独对每种特殊字符进行判断和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值