在处理中文语料或者英文语料时,经常遇到一些非法字符,例如下面微博数据集中的:
遇到这些字符,很烦。尤其是对单词标号的时候。
下面给出了Java处理的方式:
public static void main(String[] args) throws IOException {
BufferedReader reader1 = new BufferedReader( new InputStreamReader( new FileInputStream( new File("weibo/test")),"utf-8"));
String line1 = null;
while ((line1 = reader1.readLine()) != null) {
System.out.println(line1);
System.out.println(line1.replaceAll("[^A-Za-z0-9 \\u4e00-\\u9fa5]", ""));
System.out.println(cleanString(line1));
}
reader1.close();
}
这里相当于取缔所有的非字母类或者非汉字类的字符