网页抓取例子

<%@ page contentType="text/html;charset=gb2312"%>
<% 

String sCurrentLine; 

String sTotalString; 

sCurrentLine=""; 

sTotalString=""; 
String temp="";
java.io.InputStream l_urlStream; 


for(int i=14;i<=22;i++){


java.net.URL l_url = new java.net.URL

("http://www.dltcedu.org/index_5/html/994"+i+".shtml"); 

java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection)

l_url.openConnection(); 

l_connection.connect(); 

l_urlStream = l_connection.getInputStream(); 

java.io.BufferedReader l_reader = new java.io.BufferedReader(new

java.io.InputStreamReader(l_urlStream)); 

int start=-1;
while ((sCurrentLine = l_reader.readLine()) != null) 


if((start=sCurrentLine.indexOf("<div style=\"overflow:hidden"))!=-1){
temp=sCurrentLine.substring(start,sCurrentLine.length());
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");


break;


}
//sTotalString+=sCurrentLine; 


while ((sCurrentLine = l_reader.readLine()) != null) 


if((start=sCurrentLine.indexOf("</P></p></div>"))!=-1){

temp=sCurrentLine.substring(0,(start+14));
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");

break;

}

sTotalString+=sCurrentLine.replaceAll

("/UploadFile","http://www.dltcedu.org/UploadFile");; 


}//for
out.println(sTotalString); 

%>

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值