网络爬虫：抓取页面图片

最新推荐文章于 2023-05-16 13:57:57 发布

王奇良

最新推荐文章于 2023-05-16 13:57:57 发布

阅读量4k

点赞数 1

分类专栏：网络爬虫文章标签：网络爬虫 JAVA 正则图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_qi_liang/article/details/44080677

版权

爬虫就是根据页面的url来抓取页面的一些信息也就是页面的html代码，抓到后可以根据正则去匹配想要的片段，比如想要某一个页面中的一个图片，那么这个图片一定有自己的URL地址，可以正则匹配到这个url 在进行图片下载，也有很多人先写正则，根据正则的规则抓取页面的信息，当然这都是一种方式，根据业务需求去量身定做就好了，其实这两种方式各有好处，第一中适用于页面不会变化的，在代码里面写正则还是容易很多，第二种适用于页面经常改变的那么将正则放到数据库里面就可以了，以后页面变了直接改数据库而不是去该代码还要重新启动服务对吧！下面我举个小例子吧

第一步：要有一个工具类，可以根据给定的URL地址去链接页面，在读取页面中的信息，当然java的.net包早已经提供了这种功能（也可以用更好的HttpClient)

就抓取搜库排行榜的神雕侠侣的详情页吧地址：rul=http://www.soku.com/v?keyword=%E7%A5%9E%E9%9B%95%E4%BE%A0%E4%BE%A3

/**
*
* @author 奇
*
* 2015-3-5
*/
public class ReptileUtil {
   public static String getHtmlData(String path) { //传入的页面地址 url
       StringBuffer sb = new StringBuffer();
       try {

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫：抓取页面图片

爬虫就是根据页面的url来抓取页面的一些信息也就是页面的html代码，抓到后可以根据正则去匹配想要的片段，比如想要某一个页面中的一个图片，那么这个图片一定有自己的URL地址，可以正则匹配到这个url 在进行图片下载，也有很多人先写正则，根据正则的规则抓取页面的信息，当然这都是一种方式，根据业务需求去量身定做就好了，其实这两种方式各有好处，第一中适用于页面不会变化的，在代码里面写正则还是容易很多，第
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。