packagecom.enation.newtest;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileNotFoundException;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.HttpURLConnection;importjava.net.URL;importjava.net.URLConnection;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.select.Elements;public classTestUrl {/***@paramargs*/
public static voidmain(String[] args) {//TODO Auto-generated method stub//System.out.println("");
String url="http://www.qq.com/";
String encoding="gb2312";//1.根据网络和页面的编码集 抓取网页的源代码
String htmlResouce=GetHtmlResouceByURL(url, encoding);
System.out.println(htmlResouce);//2.解析网页的源代码 jsoup jar包
Document document =Jsoup.parse(htmlResouce);//ex:抓取图片例子 图片 标签
Elements elements=document.getElementsByTag("img");for(Element element : elements) {
String imgSrc=element.attr("src"); //获取src属性的值
System.out.println(imgSrc);//下载到本地文件夹中//downImgs(imgSrc, "D:\\nouse");
}
}/*** 根据网址和页面的编码集 抓取网页
*@paramurl 网址
*@paramencoding 网页的编码集
*@return源代码
*
**/
public staticString GetHtmlResouceByURL(String url,String encoding){//建立容器存储网页源代码
StringBuffer buffer=newStringBuffer();
URL urlobj=null;
URLConnection uc=null;
InputStreamReader isr=null;
BufferedReader input=null;try{//建立网络连接
urlobj =newURL(url);//打开网络连接
uc =urlobj.openConnection();//建立网络输入流
isr=newInputStreamReader(uc.getInputStream(),encoding);//建立缓冲流读输入的数据
input=newBufferedReader(isr);//循环遍历数据
String line=null;while((line=input.readLine())!=null){//添加换行
buffer.append(line+"\n");
}
}catch(Exception e) {//TODO Auto-generated catch block
e.printStackTrace();
System.out.println("连接源代码失败");
}finally{try{if(isr!=null)
isr.close();if(input!=null)
input.close();
}catch(IOException e) {//TODO Auto-generated catch block
e.printStackTrace();
System.out.println("关闭失败");
}
}returnbuffer.toString();
}
}