Linux下Java语言实现简陋Web爬虫

import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.Socket;
import java.net.UnknownHostException;

public class WebCrawler {

    private static String Text_File_Path = "/home/zms/htmldoc/htmldoc1.html";

    //运行前最好先建立此目录和文件,用于存放爬取的页面内容
    public static void main(String[] args) {
        // TODO Auto-generated method stub
        try {
            File file = new File(Text_File_Path);
            FileWriter fpWriter = new FileWriter(file);
           
            //生成下载对象
            Socket webclient = new Socket("www.woodpecker.org.cn",80);
            PrintWriter result = new PrintWriter(webclient.getOutputStream(),true);
            BufferedReader receiver = new BufferedReader(new InputStreamReader(webclient.getInputStream()));
           
            //发送Http请求
            result.println("GET / HTTP/1.1");
            result.println("Host:localhost");
            result.println("Connection: Close");
            result.println();
           
            //接收HTTP返回的消息
            boolean bRet = true;
            StringBuffer sb = new StringBuffer(8096);
            while(bRet){
                if(receiver.ready()){       
                    int idx = 0;
                    while(idx != -1){
                        idx = receiver.read();
                        if(idx == '<')
                            break;
                    }
                    while(idx != -1){
                        sb.append((char)idx);
                        idx = receiver.read();
                    }
                    bRet = false;
                }       
            }
           
            //显示获得网页的正文,打印到控制台
            System.out.println(sb.toString());
            fpWriter.write(sb.toString());
            webclient.close();
            fpWriter.close();
           
        } catch (UnknownHostException e) {
            System.err.println("无法访问您指定的主机。");
            e.printStackTrace();
            System.exit(1);
        } catch (IOException e) {
            System.err.println("下载失败,请检查输入地址是否正确。");
            e.printStackTrace();
            System.exit(1);
        }
    }

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值