简单的网页抓取小程序

简单的网页抓取小程序


仅限一些没有太多安全防备的网站,本程序使用hao123


  • 简单的一些解析域名方法
  • 简单的向网站发送请求后接受并打印
  • 熟悉lambda表达式,Socket编程,装饰模式

package GetHTMLContent;

import java.io.*;
import java.net.*;
import java.nio.charset.StandardCharsets;

public class GetHtmlContentAPP {
    public static void main(String[] args) throws IOException {
        System.out.println("解析域名......");
        //InetAddress域名解析
        //InetAddress.getByName("www.hao123.com")通过得到hao123的域名来获取IP地址
        InetAddress inetAddress = InetAddress.getByName("www.hao123.com");
        System.out.println("网站地址为:" + inetAddress);
        System.out.println("尝试链接到主机......");
        //新建Socket包,未进行链接
        Socket s = new Socket();
        //通过IP地址和端口号来确定连接对象
        SocketAddress sa = new InetSocketAddress(inetAddress, 80);
        //链接sa,允许时延10000毫秒
        s.connect(sa, 10000);
        System.out.println("已经连接到主机,开始模拟发送HTTP请求......");

        PrintWriter printWriter = new PrintWriter(new OutputStreamWriter(s.getOutputStream(), StandardCharsets.UTF_8));

        StringBuffer stringBuffer = new StringBuffer();

        //这是HTTP协议标准的请求头
        stringBuffer.append("GET /index.html HTTP/1.1\r\n");
        stringBuffer.append("Host: www.hao123.com\r\n");
        stringBuffer.append("Connection: Keep-Alive\r\n");
        stringBuffer.append("\r\n");
        printWriter.write(stringBuffer.toString());
        printWriter.flush();

        System.out.println("请求已经发送,开始读取主页内容……");

        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(s.getInputStream(), StandardCharsets.UTF_8));
        bufferedReader.lines().forEach(System.out::println);

    }
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值