过滤乱码
package com.cjp.to.mongoToEs.zzq;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.commons.lang3.StringUtils;
public class Test {
public static String replaceWrongUnicode(String source, String replace) {
if (StringUtils.isBlank(source)) {
return source;
}
if (StringUtils.isBlank(replace)) {
replace = "";
}
Pattern CRLF = Pattern.compile("([ ➤▶★■◆■◆♧♡◓◒♠♣♥❤☜☞☎☏⊙◎◚◛◜▧▨♨◐◑↔↕▪ ▒ ◊◦▣▤▥▦▩◘◈◇♬♪♩♭♪の◐◑→あぃ£Ю〒§♤♥▶¤๑⊹⊱⋛⋌⋚⊰⊹≈๑۩۩.. ..۩۩๑๑۩۞۩๑✱❇✾➹ ~.~‿☀☂☁┱┲❣✚✩✣✤✥✦❈❥❦❧❂❁❀✿✄☪☣☢☠☭ღღღ▶▷◀◁☀☁☂☃☄◐◑☇☈⊙☊☋☌☍ⓛⓞⓥⓔ╬『』∴☀ . 。◕‿◕。♨♬♩♭♧◑∷﹌の◐◎▶☺◛►◄▧▨♨◐◑ ↔ ↕↘◜▀▄█▌░▒▬♦◊ ☜☞▐░▒▬♦◊◦ ◜♧の◑→♧ぃ£❤。◕‿◕。✌✟ஐ♧♬๑•ิ.•ิ๑♠♣✖♥►◄↔↕▪▫◘◙の◑→あぃ£❤。◕‿�▲×●]|(…)|(·)|( )|[\\u0000-\\u0019]|[\\u001A-\\u001F]|[\\u001a-\\u001f]|[\\u007f-\\u009f]|\\u00ad|[\\u0483-\\u0489]|[\\u0559-\\u055a]|\\u058a|[\\u0591-\\u05bd]|\\u05bf|[\\u05c1-\\u05c2]|[\\u05c4-\\u05c7]|[\\u0606-\\u060a]|[\\u063b-\\u063f]|\\u0674|[\\u06e5-\\u06e6]|\\u070f|[\\u076e-\\u077f]|\\u0a51|\\u0a75|\\u0b44|[\\u0b62-\\u0b63]|[\\u0c62-\\u0c63]|[\\u0ce2-\\u0ce3]|[\\u0d62-\\u0d63]|\\u135f|[\\u200b-\\u200f]|[\\u2028-\\u202e]|\\u2044|\\u2071|[\\uf701-\\uf70e]|[\\uf710-\\uf71a]|\\ufb1e|[\\ufc5e-\\ufc62]|\\ufeff|\\ufffc)");
Matcher m = CRLF.matcher(source);
if (m.find()) {
return m.replaceAll(replace);
}
return source;
}
public static void main(String []args){
String str="➤▶★■◆■◆♧♡◓◒♠♣♥❤☜☞☎☏⊙◎�▲×●…· 西藏阿里汇乾加工茶有限公司:面临\u001C5G手机\u0004“缺芯\u0015”\u0003的局 近\u0007几个\u0013月来,由于央行态度谨 \u0013业经\u0005营方面,企业家们在战三是多元化或许有突破。和美财联社记者统计,\b 至截稿时界面\u001A新闻获悉,A组已经超过了一周的和解期限,案件仍处于调节中,有可能提出新的赔偿方案。如果双方未能就赔偿方案达成一致,原告家属拟进行诉讼。B组和C组的赔偿案件将在A组之后推进。。";
str="<p>                </p><p>书</p><p>    </p><p>记</p><p>    </p><p>员</p><p>     </p><p>刘</p><p> </p><p>晓</p><p> </p></p>";
// Entry entry=EntryManager.getEntry("news", "AWtObAwgkL-7TgCmtXZv");
System.out.println(replaceWrongUnicode(str,""));
// entry.setBody(replaceWrongUnicode(entry.getBody(),""));
// entry.setParamValue("lastUpdateDate", new java.util.Date());
// EntryManager.updateEntry(entry);
}
}