网络爬虫:抓取页面图片

          爬虫就是根据页面的url来抓取页面的一些信息也就是页面的html代码,抓到后可以根据正则去匹配想要的片段,比如想要某一个页面中的一个图片,那么这个图片一定有自己的URL地址,可以正则匹配到这个url 在进行图片下载,也有很多人先写正则,根据正则的规则抓取页面的信息,当然这都是一种方式,根据业务需求去量身定做就好了,其实这两种方式各有好处,第一中适用于页面不会变化的,在代码里面写正则还是容易很多,第二种适用于页面经常改变的那么将正则放到数据库里面就可以了,以后页面变了直接改数据库而不是去该代码还要重新启动服务对吧!下面我举个小例子吧

   第一步:要有一个工具类,可以根据给定的URL地址去链接页面,在读取页面中的信息,当然java的.net包早已经提供了这种功能(也可以用更好的HttpClient)

                   就抓取搜库排行榜的 神雕侠侣的详情页吧 地址:rul=http://www.soku.com/v?keyword=%E7%A5%9E%E9%9B%95%E4%BE%A0%E4%BE%A3


/**
 *
 * @author 奇
 *
 * 2015-3-5
 */
public class ReptileUtil {
    public static String getHtmlData(String path) { //传入的页面地址 url
        StringBuffer sb = new StringBuffer();
        try {

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值