网络爬虫与正则表达式
爬虫是爬取网络资源的一种重要途径,我们可以通过正则表达式来将所抓取到的数据进行分析,提取处所要得到的结果。
实验目标:抓取某一网站上所有的超链接
创建工具类,通过URL获得输出流
①使用url类来获得输入流,以便从网站下载资源
②使用InputStreamReader将字节流进行转换,便于后续操作
public static String getDataFromURL(String url,String code) {
try {
StringBuilder dataBuilder = new StringBuilder();
URL myUrl = new URL(url);
//将字节流直接转换为字符流,并确定编码,方便操作
BufferedReader bReader = new BufferedReader(
new InputStreamReader(
myUrl.openStream(),code));
//使用StringBuildr来创建可变字符串,防止产生大量String对象
String data = null;
while((data=bReader.readLine())!=null) {
dataBuilder.append(data);
}
bReader.close();
return dataBuilder.toString();
} catch (MalformedURLException e) {
e.printStackTrace();
}catch (IOException e) {
e.printStackTrace();
}
return null&