我正在创建一个小应用程序,用于衡量HTML文档加载所需的时间,每隔x秒检查一次.
我在循环中使用jsoup:
Connection.Response response = null;
for (int i = 0; i < totalGets; i++) {
long startTime = System.currentTimeMillis();
try {
response = Jsoup.connect(url)
.userAgent(USER_AGENT) //just using a Firefox user-agent
.timeout(30_000)
.execute();
} catch (IOException e) {
if (e.getMessage().contains("connect timed out")) {
System.out.println("Request timed out after 30 seconds!");
}
}
long currentTime = System.currentTimeMillis();
System.out.println("Response time: " + (currentTime - startTime) + "ms" + "\tResponse code: " + response.statusCode());
sleep(2000);
}
我遇到的问题是,无论什么网站,jsoup连接的第一次执行总是慢于后续的一次.
以下是我在https://www.google.com上的输出
Response time: 934ms Response code: 200
Response time: 149ms Response code: 200
Response time: 122ms Response code: 200
Response time: 136ms Response code: 200
Response time: 128ms Response code: 200
以下是我在https://stackoverflow.com上的内容
Response time: 440ms Response code: 200
Response time: 182ms Response code: 200
Response time: 187ms Response code: 200
Response time: 193ms Response code: 200
Response time: 185ms Response code: 200
为什么第一次连接后它总是更快?有没有更好的方法来确定文档的加载速度?
解决方法:
1.
在第一个请求被触发之前,Jsoup必须运行一些样板代码.我不会将第一个请求计入您的测量中,因为所有初始化都会使第一个请求时间产生偏差.
2.
正如评论中所提到的,许多网站都会在几秒钟内缓存响应.根据您要衡量的网站,您可以使用一些技巧让网络服务器每次都生成一个新网站.这样的技巧可能是添加时间戳参数.通常_用于此(如http://url/path/?pameter1=val1&_=ts).或者您可以在HTTP请求中不发送缓存标头.但是,这些技巧都不能强迫网络服务器以您想要的方式运行.因此,您可以在每个请求之间等待超过30秒.
标签:java,document,jsoup
来源: https://codeday.me/bug/20190516/1116390.html