学习简单的Java爬虫的心得

最新推荐文章于 2024-09-26 16:57:40 发布

shmily995

最新推荐文章于 2024-09-26 16:57:40 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/shmily995/article/details/70478499

版权

简单的Java爬虫原理：我们需要在应用程序上获得网页上的数据，这个过程就是应用程序与URL的一种通信。而这种通信可以通过URLConnection实现连接。URLConnection实例向该URL发送请求、读取URL引用的资源。所以首先通过调用URL对象openConnection()方法来创建URLConnection对象。获取URLConnection响应的内容。将获取的内容存储在缓冲区内，最后将其读出来。

package com.gc.yankai;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {
public static String SendGet(String url) throws IOException{

String result="";

BufferedReader in = null;

try {

URL realurl=new URL(url);

// URL对象openConnection()方法来创建URLConnection对象

URLConnection conn=realurl.openConnection();

conn.connect();

// 初始化 BufferedReader输入流来读取URL的响应

in = new BufferedReader(new InputStreamReader(conn.getInputStream()));

           String line;
           while((line=in.readLine() )!= null){
               result+=line;

           }
       } catch (MalformedURLException e) {
           System.out.println("发送GET请求出现异常！" + e);
           e.printStackTrace();
       }finally{
           try {
               if(in!=null){
                   in.close();
               }
           } catch (Exception e2) {

               e2.printStackTrace();
           }
       }
       return result;
   }

   public static void main(String[] args) throws IOException {
       String url="https://www.zhihu.com/explore/recommendations";
       String result=SendGet(url);
       System.out.println(result)；
    }
}