java爬虫图片_java爬虫-简单爬取网页图片

最新推荐文章于 2023-08-24 11:55:28 发布

weixin_39709178

最新推荐文章于 2023-08-24 11:55:28 发布

阅读量327

点赞数 1

文章标签： java爬虫图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39709178/article/details/114041921

版权

刚刚接触到“爬虫”这个词的时候是在大一，那时候什么都不明白，但知道了百度、谷歌他们的搜索引擎就是个爬虫。

现在大二。再次燃起对爬虫的热爱，查阅资料，知道常用java、python语言编程，这次我选择了java。在网上查找的

代码在本地跑大部分都不能使用，查找相关的资料教程也没有适合的。实在头疼、、、

现在自己写了一个简单爬取网页图片的代码，先分析一下自己写的代码吧

//获得html文本内容

String HTML =cm.getHtml(URL);//获取图片标签

List imgUrl =cm.getImageUrl(HTML);//获取图片src地址

List imgSrc =cm.getImageSrc(imgUrl);//下载图片

cm.Download(imgSrc);

简单分为四个功能方法(函数)，首先是要获取html文本

//获取HTML内容

private String getHtml(String url)throwsException{

URL url1=new URL(url);//使用java.net.URL

URLConnection connection=url1.openConnection();//打开链接

InputStream in=connection.getInputStream();//获取输入流

InputStreamReader isr=new InputStreamReader(in);//流的包装

BufferedReader br=newBufferedReader(isr);

String line;

StringBuffer sb=newStringBuffer();while((line=br.readLine())!=null){//整行读取

sb.append(line,0,line.length());//添加到StringBuffer中

sb.append('\n');//添加换行符

}//关闭各种流，先声明的后关闭

br.close();

isr.close();

in.close();returnsb.toString();

}

然后在获取的html文本中寻找图片，根据html标记语言不难发现图片通常带有，所以

写一个关于img的正则表达式

//获取img标签正则

private static final String IMGURL_REG = "]*?>";

接着是获取img标签信息&#x

最低0.47元/天解锁文章

weixin_39709178

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
java爬虫图片_java爬虫-简单爬取网页图片

刚刚接触到“爬虫”这个词的时候是在大一，那时候什么都不明白，但知道了百度、谷歌他们的搜索引擎就是个爬虫。现在大二。再次燃起对爬虫的热爱，查阅资料，知道常用java、python语言编程，这次我选择了java。在网上查找的代码在本地跑大部分都不能使用，查找相关的资料教程也没有适合的。实在头疼、、、现在自己写了一个简单爬取网页图片的代码，先分析一下自己写的代码吧//获得html文本内容String H...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。