刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度、谷歌他们的搜索引擎就是个爬虫。
现在大二。再次燃起对爬虫的热爱,查阅资料,知道常用java、python语言编程,这次我选择了java。在网上查找的
代码在本地跑大部分都不能使用,查找相关的资料教程也没有适合的。实在头疼、、、
现在自己写了一个简单爬取网页图片的代码,先分析一下自己写的代码吧
//获得html文本内容
String HTML =cm.getHtml(URL);//获取图片标签
List imgUrl =cm.getImageUrl(HTML);//获取图片src地址
List imgSrc =cm.getImageSrc(imgUrl);//下载图片
cm.Download(imgSrc);
简单分为四个功能方法(函数),首先是要获取html文本
//获取HTML内容
private String getHtml(String url)throwsException{
URL url1=new URL(url);//使用java.net.URL
URLConnection connection=url1.openConnection();//打开链接
InputStream in=connection.getInputStream();//获取输入流
InputStreamReader isr=new InputStreamReader(in);//流的包装
BufferedReader br=newBufferedReader(isr);
String line;
StringBuffer sb=newStringBuffer();while((line=br.readLine())!=null){//整行读取
sb.append(line,0,line.length());//添加到StringBuffer中
sb.append('\n');//添加换行符
}//关闭各种流,先声明的后关闭
br.close();
isr.close();
in.close();returnsb.toString();
}
然后在获取的html文本中寻找图片,根据html标记语言不难发现图片通常带有,所以
写一个关于img的正则表达式
//获取img标签正则
private static final String IMGURL_REG = "]*?>";
接着是获取img标签信息&#x