java实现爬虫改变人生!

写代码让你怀疑人生,那爬虫定会改变你人生,爬取你需要的torrent,当然高级点的网站都反爬虫。

下面就爬取一下电影的网站

http://www.xunleigang.net/html/aiqing/

1、Elements links=doc.select(".bcr_box dl");

2、Elements links21 = link.getElementsByTag("dt");  
        Elements links31 = link.getElementsByTag("dd");  
        Elements links21_ = links21.get(0).getElementsByTag("i");  
        Elements links22_ = links21.get(0).getElementsByTag("a");  
        Elements links31_ = links31.get(0).getElementsByTag("img");  
        String links21__ = links21_.toString();
        String links22__ = links22_.attr("href");
        String links23__ = links22_.text().toString();
        String links31__ = links31_.attr("src");
        links21__ = links21__.substring(3, links21__.lastIndexOf("<"));
        Calendar a = Calendar.getInstance();
        links21__ = a.get(Calendar.YEAR) + "-" + links21__;
        //      System.out.println(links21__); //电影时间
        //      System.out.println(links22__); //电影详情
        //      System.out.println(links23__); //电影名称
        //      System.out.println(links31__); //电影图片
        //      Map<String,String> replaceImgMap=downLoadImags(imgUrlList); // 下载图片
        //      String newContent=replaceWebPageImages(content,replaceImgMap); // 替换图片
        //String links44__ = downLoadImags(links31__); // 下载图片

3、下载图片
InputStream inputStream=entity.getContent();
                    String imageType=entity.getContentType().getValue();
                    String urlB=imageType.split("/")[1];
//                  System.out.println(imageType);
                    String currentDatePath=DateUtil.getCurrentDatePath(); // 当年年月日路径
                    String uuid=UUID.randomUUID().toString(); // uuid
                    String newPath="http://localhost:8080/CnBlog/static/blogImages/"+currentDatePath+"/"+uuid+"."+urlB;
                    result = newPath;
                    FileUtils.copyToFile(inputStream, new File(PropertiesUtil.getValue("imageFilePath")+currentDatePath+"/"+uuid+"."+urlB));

详细下载地址:
链接:http://pan.baidu.com/s/1boOHfFD 密码:mkln

全CSDN的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值