最近使用java实现了一个简单的网页数据抓取,下面是实现原理及实现代码:
原理:使用java.net下面的URL对象获取一个链接,下载目标网页的源代码,利用jsoup解析源代码中的数据,获取你想要的内容
1.首先是根据网址下载源代码:
/*** 根据网址和编码下载源代码
*@paramurl 目标网址
*@paramencoding 编码
*@return
*/
public staticString getHtmlResourceByURL(String url,String encoding){//存储源代码容器
StringBuffer buffer = newStringBuffer();
URL urlObj= null;
URLConnection uc= null;
InputStreamReader isr= null;
BufferedReader br=null;try{//建立网络连接
urlObj = newURL(url);//打开网络连接
uc =urlObj.openConnection();//建立文件输入流
isr = newInputStreamReader(uc.getInputStream(),encoding);
InputStream is=uc.getInputStream();//建立文件缓冲写入流
br = newBufferedReader(isr);
FileOutputStream fos= new FileOutputStream("F:\\java-study\\downImg\\index.txt&#