程序员的福利:使用WebCollector爬取某美女网站上的图片

程序员的福利:使用WebCollector爬取某美女网站上的图片

0x00 需求

某网站,有海量美女图片,里面默认是按美女的英文名字(A-Z)排序的。估算了一下,至少也得有3000+位美女照片,每位的照片数目从几十张到几百张不等。浏览了几天,才浏览了很少的一部分。心想,用浏览器浏览这么慢,效率那个低啊,这么多照片什么时候才能欣赏完。于是需求就来了:如何爬取这个网站上的美女图片呢?

0x01 工具

笔者选择的爬虫框架是WebCollector。

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

相关文档和下载连接在这里:http://www.oschina.net/p/webcollector/edit

笔者使用的版本是2.24

如何安装和配置,这里不详解了,请查阅相关文档。

0x02 Code

 查阅该网站网页的元素,确认图片的URL为http://[网站名称]/jav/[美女英文名]/[main index]/[美女英文名]-[sub index].jpg

 闲话少说,Talk is easy, show me the code:

public class Main extends BreadthCrawler{

	 public Main(String crawlPath, boolean autoParse) throws Exception {
	        super(crawlPath, autoParse);
	    }

    @Override
    public void visit(Page page, CrawlDatums craw) {
    	
    	/*不处理非jpg的网页/文件*/
        if(!Pattern.matches(".*jpg", page.getUrl())){
            return;
        }
        
        //http://[网站名称]/jav/[美女英文名]/[main index]/[美女英文名]-[sub index].jpg
        String strUrl = page.getUrl();
        String[] strPart = strUrl.split("/");
        
        if (strPart.length < 7) {
        	return;
        }

        String strMainIndex  = strPart[5];
        String strPicNameURL = strPart[6];

        int nLabel = strPicNameURL.lastIndexOf("-");
        
        if (nLabel < 0) {
        	return;
        }
        
        String strBeautiName = strPicNameURL.substring(0, nLabel);
        String strSubIndex = strPicNameURL.substring(nLabel+1, strPicNameURL.length());
        String strPicPath = "Download\\"+strBeautiName+ "\\" +strBeautiName + "_" + strMainIndex + "-" + strSubIndex;

        //保存路径格式Download\[美女名字]\[美女名字]-[主编号]-[次编号].jpg
        /*将图片内容保存到文件,page.getContent()获取的是文件的byte数组*/
        try {
            FileUtils.writeFileWithParent(strPicPath, page.getContent());
            System.out.println(page.getUrl());
            
        } catch (IOException e) {
            e.printStackTrace();
        }
    }


    public static void main(String[] args) throws Exception {
    	
    	Main crawler = new Main("MyCollector", true);

    	try {
    		crawler.addSeed("http://www.[网站网址].com");
    		String strReg = "http://www.[网站网址]/jav/*.*";
        	crawler.addRegex(strReg);
            crawler.setThreads(50);
            crawler.start(8);
    	}
    	catch(java.io.IOException e){
    	}
    }
}

最后程序运行了很久(按天算),但数据量也不小,可怜的硬盘:



0x03 总结

虽然耗费了很长时间才把很多图片爬取下来,但仔细检查发现,有些图片是没有爬取下来的,通过日志分析发现,爬虫在进行URL请求时,有些页面的URL是请求失败的。这些URL对应于其他网站,而这些网站是被封掉的。程序写的也很匆忙,读者若有什么新的爬虫技术,欢迎分享和指导。



  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值