本地爬虫
Pattern:表示正则表达式。
Matcher:文本匹配器,按照正则表达式的规则式去读取字符串,从头开始。
1.获取正则表达式对象
Pattern p = Pattern.compile(正则表达式);
2.获取文本匹配器对象
Matcher m = p.matcher(大串);//m要在大串中找符合规则的子串。
3.拿着文本匹配器从头开始读取,寻找满足规则的子串。
若有返回trun,并在底层记录子串起始索引,和结束索引+1。
boolean b = m.find
4.底层根据记录的索引,对字符串进行截取。//subString(x,y)包头不包尾
while(m.find){
String str = m.group();
System.out.println(str); }
网络爬虫
1.创建URL对象
URL url = new URL(“网站”);
2.连接网络
URLConnection con = url.openConnection();
3.创建一个对象去读取数据
BufferedReader br = new BufferedReader(new InPutStreamReader(con.getInPutStream()));
String line;
4.获取正则表达式对象
Pattern p = Pattern.compile(正则表达式);
5.在读取的时候每次读一整行
while(line=br.readLine()!=null){
Matcher m = p.matcher(line);
while(matcher.find){System.out.println(matcher.group());}
}
br.close();