java实现的简单爬虫

最新推荐文章于 2023-07-19 09:45:57 发布

sunjianli2007

最新推荐文章于 2023-07-19 09:45:57 发布

阅读量435

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/sunjianli2007/article/details/8141492

版权

java 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

终于写了个小的爬虫程序，mark一下。只是实现根据url获取网页信息的功能。

mport org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.params.HttpConnectionParams;
import org.apache.http.util.EntityUtils;
import org.apache.log4j.Logger;

/*
 * 获取网页信息
 */
public class DownloadPage
{
	  public String getContentFormUrl(String url,Logger log)    
	  {           
	        
		  /* 实例化一个HttpClient客户端 */       
		  HttpClient client = new DefaultHttpClient();   
		  HttpGet getHttp = new HttpGet(url);         
		  String content = null;     
		  HttpResponse response; 
		  int i=0;
		  for(i=0;i<3;i++)
		  {
		  try        
		  {       
			  /*超时设置*/
			  client.getParams().setIntParameter(HttpConnectionParams.SO_TIMEOUT,3000); //超时设置 
		      client.getParams().setIntParameter(HttpConnectionParams.CONNECTION_TIMEOUT, 3000);//连接超时 

			  /*获得信息载体*/      
			  response = client.execute(getHttp);    
			  HttpEntity entity = response.getEntity();  
			  if(entity!=null)
			  {
				  /* 转化为文本信息 */        
			      content = EntityUtils.toString(entity); 
			      //System.out.print(content); 
			      log.info("获取"+url+"信息！");
			      //log.info(content);
			      client.getConnectionManager().shutdown(); 
			      return content;
			  }
		   } catch (Exception e)   
			  {             
				  log.error("Exception 访问"+url+ e.toString());	
			      } finally        
					  {            
						  client.getConnectionManager().shutdown();    
						  }  
		  }
		  return content;  
		  } 
	
}

sunjianli2007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java实现的简单爬虫

终于写了个小的爬虫程序，mark一下。只是实现根据url获取网页信息的功能。mport org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache.http.client.HttpClient;import org.apache.http.client.methods.HttpGet;
复制链接

扫一扫

专栏目录