java中模拟浏览器向服务器发送请求

java中模拟浏览器向服务器发送请求

1.简介
java中模拟浏览器向服务器发送请求,可以更好的理解前后端的数据交互以及http协议的工作机制。这个技术是理解以及自己写一个爬虫的理论基础。
2.直接上代码
前言:我是在springboot框架项目上写的代码

package com.example.demo2.Test.controller;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class Test {
    public static void main(String[] args) {
        String s1=sendGet("http://localhost:9999/user/login","");
        if(s1!=null) {
            System.out.println(s1);
        }
    }
    public static String sendGet(String url,String param){
        //创建一个缓存
        StringBuffer result=new StringBuffer();
        //拼接参数,使其变成完整的url资源访问路径
        String urlName=url+"?"+param;
        //创建一个读取字符流
        BufferedReader in=null;
        try{
            //创建URL对象
            URL url1=new URL(urlName);
            //创建http连接对象
            HttpURLConnection connection=(HttpURLConnection) url1.openConnection();
            //设置连接超时时间
            connection.setConnectTimeout(5000);
            //设置读取超时时间
            connection.setReadTimeout(5000);
            //设置请求头的内容
            connection.setRequestProperty("accept","*/*");
            connection.setRequestProperty("connection","keep-alive");
            connection.setRequestProperty("user-agent",
                    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36");
            //注意:这行代码设置请求方式根本不起作用,我已经测试过了,感觉他只是给后台head中的信息
            connection.setRequestProperty("method","POST");
            //注意:这行代码才是决定请求方式,你配置了就会起效果,默认是get方式,你不配置这个,就是按get方式传的
            connection.setRequestMethod("GET");
            //connection.setRequestMethod("POST");

            //向给定的地址发送请求
            connection.connect();

            //查看服务器返回的东西
            //要访问成功才行
            if(connection.getResponseCode()==200) {
                //拿到访问成功后返回的信息流
                in = new BufferedReader(new InputStreamReader(connection.getInputStream(), "utf-8"));
                String line = null;
                while ((line = in.readLine()) != null) {
                    System.out.println(line);
                }
  

再写一个springboot项目模拟浏览器,访问地址使用上边代码中的http://localhost:9999/user/login,创建一个controller接口,并在该类中写一个登录接口然后再打印出来模拟浏览器向服务器发的请求的head中的字段信息,核心代码如下:

@RestController
@RequestMapping("/user")
public Class LoginTest{
@GetMapping("/login")
public String login(HttpServletRequest request ){
    //拿到浏览器传来的head信息
    Enumeration headerNames = request.getHeaderNames();
    while(headerNames.hasMoreElements()){
        String key = (String) headerNames.nextElement();
        String value = request.getHeader(key);
        System.out.println(key+":"+ value);
    }
    }

    return "成功";
}

3.知识扩展
3.1请求头中常见字段及含义
Accept
可接受的响应内容类型(Content-Types)。 Accept: text/plain 固定
Accept-Charset
可接受的字符集 Accept-Charset: utf-8 固定
Accept-Encoding
可接受的响应内容的编码方式。 Accept-Encoding: gzip, deflate 固定
Accept-Language
可接受的响应内容语言列表。 Accept-Language: en-US 固定
Accept-Datetime
可接受的按照时间来表示的响应内容版本 Accept-Datetime: Sat, 26 Dec 2015 17:30:00 GMT 临时
Authorization
用于表示HTTP协议中需要认证资源的认证信息 Authorization: Basic OSdjJGRpbjpvcGVuIANlc2SdDE== 固定
Cache-Control
用来指定当前的请求/回复中的,是否使用缓存机制。 Cache-Control: no-cache 固定
Connection
客户端(浏览器)想要优先使用的连接类型 Connection: keep-alive
Connection: Upgrade 固定
Cookie
由之前服务器通过Set-Cookie(见下文)设置的一个HTTP协议Cookie Cookie: $Version=1; Skin=new; 固定:标准
Content-Length
以8进制表示的请求体的长度 Content-Length: 348 固定
Content-MD5
请求体的内容的二进制 MD5 散列值(数字签名),以 Base64 编码的结果 Content-MD5: oD8dH2sgSW50ZWdyaIEd9D== 废弃
Content-Type
请求体的MIME类型 (用于POST和PUT请求中) Content-Type: application/x-www-form-urlencoded 固定
Date
发送该消息的日期和时间(以RFC 7231中定义的"HTTP日期"格式来发送) Date: Dec, 26 Dec 2015 17:30:00 GMT 固定
Expect
表示客户端要求服务器做出特定的行为 Expect: 100-continue 固定
From
发起此请求的用户的邮件地址 From: user@itbilu.com 固定
Host
表示服务器的域名以及服务器所监听的端口号。如果所请求的端口是对应的服务的标准端口(80),则端口号可以省略。 Host: www.itbilu.com:80
Host: www.itbilu.com 固定
If-Match
仅当客户端提供的实体与服务器上对应的实体相匹配时,才进行对应的操作。主要用于像 PUT 这样的方法中,仅当从用户上次更新某个资源后,该资源未被修改的情况下,才更新该资源。 If-Match: “9jd00cdj34pss9ejqiw39d82f20d0ikd” 固定
If-Modified-Since
允许在对应的资源未被修改的情况下返回304未修改 If-Modified-Since: Dec, 26 Dec 2015 17:30:00 GMT 固定
If-None-Match
允许在对应的内容未被修改的情况下返回304未修改( 304 Not Modified ),参考 超文本传输协议 的实体标记 If-None-Match: “9jd00cdj34pss9ejqiw39d82f20d0ikd” 固定
If-Range
如果该实体未被修改过,则向返回所缺少的那一个或多个部分。否则,返回整个新的实体 If-Range: “9jd00cdj34pss9ejqiw39d82f20d0ikd” 固定
If-Unmodified-Since
仅当该实体自某个特定时间以来未被修改的情况下,才发送回应。 If-Unmodified-Since: Dec, 26 Dec 2015 17:30:00 GMT 固定
Max-Forwards
限制该消息可被代理及网关转发的次数。 Max-Forwards: 10 固定
Origin
发起一个针对跨域资源共享的请求(该请求要求服务器在响应中加入一个Access-Control-Allow-Origin的消息头,表示访问控制所允许的来源)。 Origin: http://www.itbilu.com 固定: 标准
Pragma
与具体的实现相关,这些字段可能在请求/回应链中的任何时候产生。 Pragma: no-cache 固定
Proxy-Authorization
用于向代理进行认证的认证信息。 Proxy-Authorization: Basic IOoDZRgDOi0vcGVuIHNlNidJi2== 固定
Range
表示请求某个实体的一部分,字节偏移以0开始。 Range: bytes=500-999 固定
Referer
表示浏览器所访问的前一个页面,可以认为是之前访问页面的链接将浏览器带到了当前页面。Referer其实是Referrer这个单词,但RFC制作标准时给拼错了,后来也就将错就错使用Referer了。 Referer: http://itbilu.com/nodejs 固定
TE
浏览器预期接受的传输时的编码方式:可使用回应协议头Transfer-Encoding中的值(还可以使用"trailers"表示数据传输时的分块方式)用来表示浏览器希望在最后一个大小为0的块之后还接收到一些额外的字段。 TE: trailers,deflate 固定
User-Agent
浏览器的身份标识字符串 User-Agent: Mozilla/…… 固定
Upgrade
要求服务器升级到一个高版本协议。 Upgrade: HTTP/2.0, SHTTP/1.3, IRC/6.9, RTA/x11 固定
Via
告诉服务器,这个请求是由哪些代理发出的。 Via: 1.0 fred, 1.1 itbilu.com.com (Apache/1.1) 固定
Warning
一个一般性的警告,表示在实体内容体中可能存在错误。 Warning: 199 Miscellaneous warning 固定

3.2响应头的常见字段及含义
Access-Control-Allow-Origin
指定哪些网站可以跨域源资源共享 Access-Control-Allow-Origin: * 临时
Accept-Patch
指定服务器所支持的文档补丁格式 Accept-Patch: text/example;charset=utf-8 固定
Accept-Ranges
服务器所支持的内容范围 Accept-Ranges: bytes 固定
Age
响应对象在代理缓存中存在的时间,以秒为单位 Age: 12 固定
Allow
对于特定资源的有效动作; Allow: GET, HEAD 固定
Cache-Control
通知从服务器到客户端内的所有缓存机制,表示它们是否可以缓存这个对象及缓存有效时间。其单位为秒 Cache-Control: max-age=3600 固定
Connection
针对该连接所预期的选项 Connection: close 固定
Content-Disposition
对已知MIME类型资源的描述,浏览器可以根据这个响应头决定是对返回资源的动作,如:将其下载或是打开。 Content-Disposition: attachment; filename=“fname.ext” 固定
Content-Encoding
响应资源所使用的编码类型。 Content-Encoding: gzip 固定
Content-Language
响就内容所使用的语言 Content-Language: zh-cn 固定
Content-Length
响应消息体的长度,用8进制字节表示 Content-Length: 348 固定
Content-Location
所返回的数据的一个候选位置 Content-Location: /index.htm 固定
Content-MD5
响应内容的二进制 MD5 散列值,以 Base64 方式编码 Content-MD5: IDK0iSsgSW50ZWd0DiJUi== 已淘汰
Content-Range
如果是响应部分消息,表示属于完整消息的哪个部分 Content-Range: bytes 21010-47021/47022 固定
Content-Type
当前内容的MIME类型 Content-Type: text/html; charset=utf-8 固定
Date
此条消息被发送时的日期和时间(以RFC 7231中定义的"HTTP日期"格式来表示) Date: Tue, 15 Nov 1994 08:12:31 GMT 固定
ETag
对于某个资源的某个特定版本的一个标识符,通常是一个 消息散列 ETag: “737060cd8c284d8af7ad3082f209582d” 固定
Expires
指定一个日期/时间,超过该时间则认为此回应已经过期 Expires: Thu, 01 Dec 1994 16:00:00 GMT 固定: 标准
Last-Modified
所请求的对象的最后修改日期(按照 RFC 7231 中定义的“超文本传输协议日期”格式来表示) Last-Modified: Dec, 26 Dec 2015 17:30:00 GMT 固定
Link 用来表示与另一个资源之间的类型关系,此类型关系是在RFC 5988中定义 Link: ; rel=“alternate” 固定
Location
用于在进行重定向,或在创建了某个新资源时使用。 Location: http://www.itbilu.com/nodejs 固定
P3P
P3P策略相关设置 P3P: CP=“This is not a P3P policy! 固定
Pragma
与具体的实现相关,这些响应头可能在请求/回应链中的不同时候产生不同的效果 Pragma: no-cache 固定
Proxy-Authenticate
要求在访问代理时提供身份认证信息。 Proxy-Authenticate: Basic 固定
Public-Key-Pins
用于防止中间攻击,声明网站认证中传输层安全协议的证书散列值 Public-Key-Pins: max-age=2592000; pin-sha256=”……"; 固定
Refresh
用于重定向,或者当一个新的资源被创建时。默认会在5秒后刷新重定向。 Refresh: 5; url=http://itbilu.com
Retry-After
如果某个实体临时不可用,那么此协议头用于告知客户端稍后重试。其值可以是一个特定的时间段(以秒为单位)或一个超文本传输协议日期。 示例1:Retry-After: 120
示例2: Retry-After: Dec, 26 Dec 2015 17:30:00 GMT 固定
Server
服务器的名称 Server: nginx/1.6.3 固定
Set-Cookie
设置HTTP cookie Set-Cookie: UserID=itbilu; Max-Age=3600; Version=1 固定: 标准
Status
通用网关接口的响应头字段,用来说明当前HTTP连接的响应状态。 Status: 200 OK
Trailer
Trailer用户说明传输中分块编码的编码信息 Trailer: Max-Forwards 固定
Transfer-Encoding
用表示实体传输给用户的编码形式。包括:chunked、compress、 deflate、gzip、identity。 Transfer-Encoding: chunked 固定
Upgrade
要求客户端升级到另一个高版本协议。 Upgrade: HTTP/2.0, SHTTP/1.3, IRC/6.9, RTA/x11 固定
Vary
告知下游的代理服务器,应当如何对以后的请求协议头进行匹配,以决定是否可使用已缓存的响应内容而不是重新从原服务器请求新的内容。 Vary: * 固定
Via
告知代理服务器的客户端,当前响应是通过什么途径发送的。 Via: 1.0 fred, 1.1 itbilu.com (nginx/1.6.3) 固定
Warning
一般性警告,告知在实体内容体中可能存在错误。 Warning: 199 Miscellaneous warning 固定
WWW-Authenticate
表示在请求获取这个实体时应当使用的认证模式。 WWW-Authenticate: Basic 固定

后续代码功能补充(添加了可以获取响应头信息功能)

package com.example.demo2.Test.controller;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class Test {
    public static void main(String[] args) {
       // String s1=sendGet("http://localhost:9999/user/login","");
        String s1=sendGet("https://www.baidu.com","");
        if(s1!=null) {
            System.out.println(s1);
        }
    }
    public static String sendGet(String url,String param){
        //创建一个缓存
        StringBuffer result=new StringBuffer();
        //拼接参数,使其变成完整的url资源访问路径
        String urlName=url+"?"+param;
        //创建一个读取字符流
        BufferedReader in=null;
        try{
            //创建URL对象
            URL url1=new URL(urlName);
            //创建http连接对象
            HttpURLConnection connection=(HttpURLConnection) url1.openConnection();
            //设置连接超时时间
            connection.setConnectTimeout(5000);
            //设置读取超时时间
            connection.setReadTimeout(5000);
            //设置请求头的内容
            connection.setRequestProperty("accept","*/*");
            connection.setRequestProperty("connection","keep-alive");
            connection.setRequestProperty("user-agent",
                    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36");
            //注意:这行代码设置请求方式根本不起作用,我已经测试过了,感觉他只是给后台head中的信息
            connection.setRequestProperty("method","POST");
            //注意:这行代码才是决定请求方式,你配置了就会起效果,默认是get方式,你不配置这个,就是按get方式传的
            connection.setRequestMethod("GET");
            //connection.setRequestMethod("POST");

            //向给定的地址发送请求
            connection.connect();

            //查看服务器返回的东西
            //要访问成功才行
            if(connection.getResponseCode()==200) {
                //获取响应头内容
             Map<String,List<String>> map= connection.getHeaderFields();

                for (Map.Entry<String, List<String>> entry : map.entrySet()) {
                    System.out.println("Key : " + entry.getKey()
                            + " ,Value : " + entry.getValue());
                }


                //拿到访问成功后返回的信息流(就是响应体)
                in = new BufferedReader(new InputStreamReader(connection.getInputStream(), "utf-8"));
                String line = null;
                while ((line = in.readLine()) != null) {
                    System.out.println(line);
                }
            }else {
                //拿到访问失败返回的信息流
                in = new BufferedReader(
                        new InputStreamReader(connection.getErrorStream(), "utf-8"));
                String line = null;
                while ((line = in.readLine()) != null) {
                    System.out.println(line);
                }
                return null;

            }
        }catch (Exception e){
            System.out.println("连接嗝屁了!");
        }finally {
            if (in != null) {
                try {
                    in.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return result.toString();
    }
}

扩展知识参考博客:https://www.cnblogs.com/honghong87/articles/6941436.html

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 可以使用JavaHttpURLConnection类来模拟浏览器发送HTTP请求,获取服务器响应。具体步骤如下: 1. 创建URL对象,设置要访问的网址。 ``` URL url = new URL("http://www.example.com"); ``` 2. 打开连接,获取HttpURLConnection对象。 ``` HttpURLConnection conn = (HttpURLConnection) url.openConnection(); ``` 3. 设置请求头,模拟浏览器发送请求。 ```java conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"); ``` 4. 发送请求,获取服务器响应。 ``` InputStream inputStream = conn.getInputStream(); ``` 5. 解析响应内容,获取需要的信息。 完整代码示例: ```java import java.io.IOException; import java.io.InputStream; import java.net.HttpURLConnection; import java.net.URL; public class BrowserSimulator { public static void main(String[] args) throws IOException { // 设置要访问的网址 URL url = new URL("http://www.example.com"); // 打开连接,获取HttpURLConnection对象 HttpURLConnection conn = (HttpURLConnection) url.openConnection(); // 设置请求头,模拟浏览器发送请求 conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"); // 发送请求,获取服务器响应 InputStream inputStream = conn.getInputStream(); // 解析响应内容,获取需要的信息 byte[] buffer = new byte[1024]; int len; while ((len = inputStream.read(buffer)) != -1) { System.out.println(new String(buffer, 0, len)); } inputStream.close(); } } ``` 注意:在实际开发,可能需要根据不同的网站设置不同的请求头,以达到最佳的模拟效果。 ### 回答2: 要用Java模拟浏览器,可以利用Java程序的网络编程和网页解析技术。 首先,我们需要使用Java的网络编程来建立与服务器的连接。可以使用Java提供的Socket类创建一个与目标网站的连接。然后,我们可以使用JavaHTTP协议相关类来发送HTTP请求,例如使用URL类来构建HTTP请求的URL地址,并使用URLConnection类来发送HTTP请求并获取服务器返回的数据。 接下来,我们需要解析服务器返回的HTML内容。可以使用Java的HTML解析库,如Jsoup,来解析HTML文档。我们可以使用这些库来获取HTML的元素,例如获取标题、链接、图片等。还可以使用XPath表达式来提取HTML的信息。 除了基本的HTTP请求和HTML解析,还可使用Java模拟浏览器填写表单、处理Cookie等功能。我们可以使用JavaHTTP协议相关类来发送POST请求模拟表单提交,并在请求设置Cookie信息。还可以使用Java的CookieManager类来管理请求的Cookie信息。 此外,为了实现完整的浏览器模拟,还可以使用Java浏览器引擎,如Selenium,来控制浏览器的操作。这些引擎可以模拟浏览器的行为,如点击、滚动、截屏等。可以通过Java代码来控制浏览器引擎,模拟用户在浏览器的操作。 综上所述,要用Java模拟浏览器,我们可以使用Java的网络编程和网页解析技术。通过建立与服务器的连接、发送HTTP请求、解析服务器返回的HTML内容,以及模拟浏览器的操作,我们可以实现一个简单的浏览器模拟功能。 ### 回答3: 要用Java模拟浏览器,我们可以使用Java的网络编程和HTML解析技术。下面是一个简单的步骤来模拟浏览器的过程: 1. 使用Java的网络编程库,例如java.net包的URL类来建立连接到目标网站。 2. 使用URLConnection类从URL对象获取连接对象,并设置请求属性,例如设置User-Agent,模拟特定的浏览器类型。 3. 发送HTTP请求并接收服务器响应。可以使用URLConnection类的getInputStream方法获取响应的输入流。 4. 将接收到的响应进行逐行读取,并将响应存储到字符串或处理响应数据。 5. 如果需要填写表单或进行其他交互操作,可以使用Java的相关类和方法,例如通过URL类的openConnection获取URLConnection对象,并使用该对象的setDoOutput和getOutputStream方法进行POST请求,向服务器发送表单数据。 6. 对接收到的响应进行HTML解析。可以使用Java的一些HTML解析器,例如jsoup,来解析HTML页面的DOM结构,提取所需的数据。 7. 根据需要,进行进一步的处理和操作,例如点击链接,跟踪页面导航等。 8. 最后,根据模拟浏览器需求,将所需的数据存储、展示或进行其他处理。 总之,使用Java模拟浏览器需要使用Java的网络编程和HTML解析技术,通过建立连接、发送HTTP请求、接收响应、解析HTML等步骤来实现对网页的模拟浏览。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值