java多线程数据采集_java多线程网络数据采集  1

java采集网页数据。获取html文本节点第一种: 采用HttpURLConnectionpackagecom.yjf.util;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.HttpURL...
摘要由CSDN通过智能技术生成

java采集网页数据。获取html文本节点

第一种: 采用HttpURLConnection

packagecom.yjf.util;

importjava.io.BufferedReader;

importjava.io.IOException;

importjava.io.InputStream;

importjava.io.InputStreamReader;

importjava.net.HttpURLConnection;

importjava.net.URL;

publicclassHttpWebUtil {

publicstaticString GetWebContent(String urlString,finalString charset,inttimeout)throwsIOException {

if(urlString ==null|| urlString.length() ==0) {

return"";

}

urlString = (urlString.startsWith("http://") || urlString.startsWith("https://")) ? urlString : ("http://"+ urlString).intern();

URL url =newURL(urlString);

HttpURLConnection conn = (HttpURLConnection) url.openConnection();

conn.setDoOutput(true);

conn.setRequestProperty("Pragma","no-cache");

conn.setRequestProperty("Cache-Control","no-cache");

inttemp = Integer.parseInt(Math.round(Math.random()*(UserAgent.length-1))+"");

conn.setRequestProperty(

"User-Agent",

UserAgent[temp]);// 模拟手机系统

conn.setRequestProperty("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,**任意,就是tomcat/conf/web里面定义那些

conn.setConnectTimeout(timeout);

try{

if(conn.getResponseCode() != HttpURLConnection.HTTP_OK) {

return"";

}

}catch(Exception e) {

try{

System.out.println(e.get

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值