Socket模拟浏览器请求网页

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/GBStyle/article/details/89280028

什么是socket?

简单讲,socket是对tcp进行封装,对外提供网络连接的接口

原理 

http底层的实现是通过socket实现的,打开http服务器(web服务器)实际上是创建了SocketServer;浏览器请求网页时,则是通过socket去连接服务器,使用http协议完成数据的传输。

环境搭建

可以使用正式的网站,也可以自己打一个网页服务器(xampp,Nginx,tomcat等),Headers可以通过filddler等抓包工具获取

实现

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.IOException;
import java.net.Socket;

public class MyBrowser {
    public static void main(String[] args) throws IOException {
        Socket browser = new Socket("127.0.0.1", 80);
        BufferedOutputStream bos = new BufferedOutputStream(browser.getOutputStream());
        BufferedInputStream bis = new BufferedInputStream(browser.getInputStream());
        bos.write(("GET / HTTP/1.1\r\n" +
                "Host: 127.0.0.1:80\r\n" +
                "Connection: keep-alive\r\n" +
                "Upgrade-Insecure-Requests: 1\r\n" +
                "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) " +
                "Chrome/71.0.3578.98 Safari/537.36\r\n" +
                "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8\r\n" +
                "Accept-Encoding: gzip, deflate, br\r\n" +
                "Accept-Language: zh-CN,zh;q=0.9\r\n" +
                "\r\n").getBytes());

        bos.flush();
        int len = 0;
        byte[] bytes = new byte[2048];
        while (true) {
            while ((len = bis.read(bytes)) > 0) {
                System.out.println(new String(bytes, 0, len));
            }
        }
    }
//        测试百度
//        Socket browser = new Socket("baidu.com", 80);

//        bos.write(("GET / HTTP/1.1\r\n" +
//                "cache-control: no-cache\r\n" +
//                "Postman-Token: 94b30c7e-095b-496e-a5b5-9308fbf01c79\r\n" +
//                "User-Agent: PostmanRuntime/7.6.1\r\n" +
//                "Accept: */*\r\n" +
//                "Host: baidu.com\r\n" +
//                "accept-encoding: gzip, deflate\r\n" +
//                "content-type: multipart/form-data; boundary=--------------------------119855980562193837159749\n" +
//                "content-length: 0\r\n" +
//                "Connection: keep-alive\r\n\r\n").getBytes());
}

服务器数据

index.html内容 

结果

get请求地址为根目录时:

 get请求地址为a.jpg时

其他

1. 该代码只能实现get请求,post的实现还没测试过

2. 注意在用输入流写入数据时,换行得用\r\n,否则服务器可能无法进行处理返回400错误

3. 关于socket的其他测试,如端口映射,内网调用服务等功能,可以看这里

 

展开阅读全文

java socket 模拟http请求 出现的问题

11-17

[code="java"]rntry rn Socket s = new Socket("www.pconline.com.cn",80);rn BufferedReader br = new BufferedReader(new InputStreamReader(s.getInputStream(),"GBK"));rn OutputStream out = s.getOutputStream();rn StringBuffer sb = new StringBuffer("GET /index.html HTTP/1.1\r\n");rn sb.append("User-Agent: Java/1.6.0_20\r\n");rn sb.append("Host: www.pconline.com.cn:80\r\n");rn sb.append("Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2\r\n");rn sb.append("Connection: Close\r\n");rn sb.append("\r\n");rn out.write(sb.toString().getBytes());rn String tmp = "";rn while((tmp = br.readLine())!=null)rn System.out.println(tmp);rn rn out.close();rn br.close();rn rn catch (UnknownHostException e) rn // TODO Auto-generated catch blockrn e.printStackTrace();rn catch (IOException e) rn // TODO Auto-generated catch blockrn e.printStackTrace();rn rnrn[/code]rnrn使用这个访问web,上面例子是太平洋电脑网,163结果也一样,都会在响应头和响应体之间加入一个数字,返回如下:rnrnHTTP/1.1 200 OKrnServer: nginxrnDate: Wed, 17 Nov 2010 03:10:46 GMTrnContent-Type: text/htmlrnTransfer-Encoding: chunkedrnConnection: closernExpires: Wed, 17 Nov 2010 03:25:46 GMTrnCache-Control: max-age=900rnrn8000rnrnrnrn rn rn太平洋电脑网_中国第一专业IT门户网站rnrn......rnrn使用socket访问时,会在头和体之间加入一个8000 数字,后面还有很多个8000,貌似是个缓冲区大小,而使用java的HttpUrlConncetion 和Apache 的HttpClinet 访问都正常,而其把协议改成HTTP/1.0也正常。这个问题非常奇怪,希望谁碰见过类似问题的或者对协议非常了解的朋友帮我解答,谢谢! 论坛

没有更多推荐了,返回首页