java 字符串长度 ascii_将Unicode转换为ASCII而不更改字符串长度(在Java中)

将字符串从Unicode转换为ASCII而不改变其长度的最佳方法是什么(在我的情况下这非常重要)?此外,没有任何转换问题的字符必须与原始字符串中的位置相同.

因此,“Ä”必须转换为“A”而不是具有更多字符的神秘内容.

编辑:

@novalis – 这些符号(例如亚洲语言)应该只转换为一些占位符.我对这些词或他们的意思不太感兴趣.

@MtnViewMark – 在任何情况下我都必须保留所有字符的数量和ASCII可用字符的位置.

这里有一些更多信息:我有一些只能处理ASCII字符串的文本挖掘工具.大多数应该处理的文本是英文的,但有些文本包含非ASCII字符.我对这些单词不感兴趣,但我必须确保我感兴趣的单词(那些只包含ASCII字符的单词)在字符串转换后处于相同的位置.

解决方法:

如this回答所述,以下代码应该有效:

String s = "口水雞 hello Ä";

String s1 = Normalizer.normalize(s, Normalizer.Form.NFKD);

String regex = "[\\p{InCombiningDiacriticalMarks}\\p{IsLm}\\p{IsSk}]+";

String s2 = new String(s1.replaceAll(regex, "").getBytes("ascii"), "ascii");

System.out.println(s2);

System.out.println(s.length() == s2.length());

输出是

??? hello A

true

所以你首先删除diactrical标记,转换为ascii.非ascii字符将成为问号.

标签:java,string,unicode,ascii

来源: https://codeday.me/bug/20190925/1816135.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值