1.读取文件的每行
public static void readLines(String file, ArrayList<String> lines) { BufferedReader reader = null; try { reader = new BufferedReader(new FileReader(new File(file))); String line = null; // String word=""; while ((line = reader.readLine()) != null) { // if(line.equals(word)) lines.add(line); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (reader != null) { try { reader.close(); } catch (IOException e) { e.printStackTrace(); } } } }
以上代码中读取输入文件file,并将所有行保存在数组lines中.2.以空格为分隔符提取词
StringTokenizer:字符串分隔解析类型
1). StringTokenizer(String str) :构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。
2). StringTokenizer(String str, String delim) :构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符。
3). StringTokenizer(String str, String delim, boolean returnDelims) :构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符,同时,指定是否返回分隔符。
使用示例:
String line = new String("The Java platform is the ideal platform for network computing"); ArrayList<String> tokens = new ArrayList<String>(); StringTokenizer strTok = new StringTokenizer(line);//对每行进行分词,提取每个词 while (strTok.hasMoreTokens()) { String token = strTok.nextToken(); tokens.add(token);//将所有词放入数组tokens中 }
将line以空格分割所有词,并将所有词存储在字符串数组tokens中.