Java实现简单爬虫😋
超级简单的爬虫,直接引入jsoup依赖,即可编写获取指定网页的信息,很简单的一个爬虫。(一个小案例)
//一个小案例仅供参考
public class Reptile {
public static void main(String[] args) throws IOException {
//指定爬取的网页
String url="https://pic.netbian.com/4kdongman/";
//通过Jsoup后去指定路径的页面信息
Document document= Jsoup.parse(new URL(url),10000);
//获取id=main的标签
Element content=document.getElementById("main");
//获取img标签
Elements imgs=content.getElementsByTag("img");
System.out.println(imgs);
//存放图片的文件名
int id=0;
//视情况而定,有的获取的img图片url不需要
String urlHead="https://pic.netbian.com/";
//通过遍历获取img的url
for(Element img:imgs){
String src=urlHead+img.attr("src");
URL target=new URL(src);
URLConnection urlConnection=target.openConnection();
//获取输入流
InputStream inputStream=urlConnection.getInputStream();
id++;
//输出流到指定文件位置
OutputStream outputStream=new FileOutputStream("D:\\Java\\JavaProject\\Easy_reptile\\src\\main\\static\\"+id+".jpg");
//写入写出
int temp=0;
while((temp=inputStream.read())!=-1){
outputStream.write(temp);
}
System.out.println(id+".jpg下载完成!");
//关闭流
outputStream.close();
inputStream.close();
}
}
}
完工! (不要乱爬哟~)