简单的Java爬虫原理:我们需要在应用程序上获得网页上的数据,这个过程就是应用程序与URL的一种通信。而这种通信可以通过URLConnection实现连接。URLConnection实例向该URL发送请求、读取URL引用的资源。所以首先通过调用URL对象openConnection()方法来创建URLConnection对象。获取URLConnection响应的内容。将获取的内容存储在缓冲区内,最后将其读出来。
package com.gc.yankai;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Spider {
public static String SendGet(String url) throws IOException{
String result="";
try {
// URL对象openConnection()方法来创建URLConnection对象
URLConnection conn=realurl.openConnection();
conn.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
while((line=in.readLine() )!= null){
result+=line;
}
} catch (MalformedURLException e) {
System.out.println("发送GET请求出现异常!" + e);
e.printStackTrace();
}finally{
try {
if(in!=null){
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
public static void main(String[] args) throws IOException {
String url="https://www.zhihu.com/explore/recommendations";
String result=SendGet(url);
System.out.println(result);
}
}