学习简单的Java爬虫的心得

简单的Java爬虫原理:我们需要在应用程序上获得网页上的数据,这个过程就是应用程序与URL的一种通信。而这种通信可以通过URLConnection实现连接。URLConnection实例向该URL发送请求、读取URL引用的资源。所以首先通过调用URL对象openConnection()方法来创建URLConnection对象。获取URLConnection响应的内容。将获取的内容存储在缓冲区内,最后将其读出来。


package com.gc.yankai;


import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {
    public static String SendGet(String url) throws IOException{

        String result="";

  

        BufferedReader in = null;

       

        try {


            URL realurl=new URL(url);

// URL对象openConnection()方法来创建URLConnection对象

            URLConnection conn=realurl.openConnection();

            conn.connect();

        

// 初始化 BufferedReader输入流来读取URL的响应

            in = new BufferedReader(new InputStreamReader(conn.getInputStream()));


            String line;
            while((line=in.readLine() )!= null){
                result+=line;
                
            }
        } catch (MalformedURLException e) {
            System.out.println("发送GET请求出现异常!" + e);
            e.printStackTrace();
        }finally{
            try {
                if(in!=null){
                    in.close();
                }
            } catch (Exception e2) {
                
                e2.printStackTrace();
            }
        }
        return result;
    }


    public static void main(String[] args) throws IOException {
        String url="https://www.zhihu.com/explore/recommendations";
        String result=SendGet(url);
        System.out.println(result);
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值