java爬虫图片_java爬虫-简单爬取网页图片

刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度、谷歌他们的搜索引擎就是个爬虫。

现在大二。再次燃起对爬虫的热爱,查阅资料,知道常用java、python语言编程,这次我选择了java。在网上查找的

代码在本地跑大部分都不能使用,查找相关的资料教程也没有适合的。实在头疼、、、

现在自己写了一个简单爬取网页图片的代码,先分析一下自己写的代码吧

//获得html文本内容

String HTML =cm.getHtml(URL);//获取图片标签

List imgUrl =cm.getImageUrl(HTML);//获取图片src地址

List imgSrc =cm.getImageSrc(imgUrl);//下载图片

cm.Download(imgSrc);

简单分为四个功能方法(函数),首先是要获取html文本

//获取HTML内容

private String getHtml(String url)throwsException{

URL url1=new URL(url);//使用java.net.URL

URLConnection connection=url1.openConnection();//打开链接

InputStream in=connection.getInputStream();//获取输入流

InputStreamReader isr=new InputStreamReader(in);//流的包装

BufferedReader br=newBufferedReader(isr);

String line;

StringBuffer sb=newStringBuffer();while((line=br.readLine())!=null){//整行读取

sb.append(line,0,line.length());//添加到StringBuffer中

sb.append('\n');//添加换行符

}//关闭各种流,先声明的后关闭

br.close();

isr.close();

in.close();returnsb.toString();

}

然后在获取的html文本中寻找图片,根据html标记语言不难发现图片通常带有,所以

写一个关于img的正则表达式

//获取img标签正则

private static final String IMGURL_REG = "]*?>";

接着是获取img标签信息&#x

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值