通过ASCII码判断,其他字符也可以用次方法
//判断字符是否是HTML空格 ASCII码为160
public static boolean isHtmlSpace(char c){
if ((int)c==160)
return true;
return false;
}
//简单处理从网页上抓取的小说
public static String novelContentProcessor(String string){
String result = "";
char [] chars = string.toCharArray();
for (int i=0;i<chars.length;i++)
if (CharUtil.isHtmlSpace(chars[i]))
chars[i] = ' '; //HTML空格全部替换为普通空格
String newString = new String(chars);
String [] sentences = newString.split(" ");
for (String sen : sentences){
if (!sen.isEmpty()){
sen.trim();
result += " "+sen +"\r\n" ;
}
}
return result+"\r\n";