截取包含特殊字符的字符串

最新推荐文章于 2024-07-26 03:34:57 发布

code1Boy

最新推荐文章于 2024-07-26 03:34:57 发布

阅读量1k

点赞数

分类专栏： Java 文章标签： java

本文链接：https://blog.csdn.net/code1Boy/article/details/128071121

版权

Java 专栏收录该内容

17 篇文章

订阅专栏

截取包含特殊字符的字符串

在工作中遇到一个问题，一段字符串正文中包含中文、Emoji表情、以及一些特殊符号，我们要对正文进行固定长度的截断，此时使用String的substring()进行截取操作，结果就有可能是乱码或者不符合要求因为JVM运行时使用UTF-16编码，对于普通的字符都是使用char类型存储（2个字节），而对于中文、emoji表情是用两个char存储（4个字节），substring是按照char截取的，有可能截取不全，从而导致乱码等问题出现，实际上Java也自带了特殊字符截取的方法offsetByCodePoints(int index,int codePointOffset)；
（该方法返回此String 中从给定的 index 处偏移 codePointOffset 个Unicode代码点的索引），来辅助实现substring方法。

String source = "哈哈哈🐷👀sss🎈哦哦ddd😍📌sadfsdfj";
int codePointCount = source.codePointCount(0, emoji.length()); //返回指定文本中的Unicode代码点数
String subText = source.substring(0,source.offsetByCodePoints(0,  codePointCount-2));