Java拉取网页资源

package com.zp.util;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * 大数据批量数据检索工具类
 * @author 盲鹰
 * @version 1.0
 */
public class DataDownUtil {

    /**
     * 根据网址和网页的编码集,获取网页源代码
     * @author 盲鹰
     * @param url    网址
     * @param encoding    网页编码集
     * @return    
     */
    public static String getHTMLResourceByUrl(String url, String encoding) {
        StringBuffer buffer = new StringBuffer();
        URL urlObj = null;
        URLConnection uc = null;
        InputStreamReader isr = null;
        BufferedReader reader = null;
        
        try {
            // 建立网络连接
            urlObj = new URL(url);
            // 打开网络连接
            uc = urlObj.openConnection();
            // 建立文件写入流
            isr = new InputStreamReader(uc.getInputStream(), encoding);
            // 建立文件缓冲写入流
            reader = new BufferedReader(isr);
            String temp = null;
            while((temp = reader.readLine()) != null) {
                //边读边写
                buffer.append(temp + "\n");
            }    
            return buffer.toString();
        } catch (MalformedURLException e) {
            e.printStackTrace();
            System.out.println("世界上最遥远的距离就是没有网,请检查设置。");
        } catch (IOException e) {
            e.printStackTrace();
            System.out.println("您打开的网络连接失败!请您稍后。");
        } finally {
            if (isr != null) {
                try {
                    isr.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return null;
    }
    
    /**
     * 解析网页源代码,获取对应的自定义采集内容
     * @author 盲鹰
     * @param url    网址
     * @param encoding    网页编码集
     * @return    List集合
     */
    public static List<HashMap<String, String>> getHotelInfo(String url, String encoding) {
        // 根据网址和网页的编码集,获取网页源代码
        String html = getHTMLResourceByUrl(url, encoding);
        // 解析网页源代码,获取对应的自定义采集内容
        Document document = Jsoup.parse(html);
        // 获取最外层的 div id="hotel_list"
        Element element = document.getElementById("listZone");
        // 获取酒店结果列表searchresut_list
        Elements elements = document.getElementsByClass("Q-tpListInner");
        
        // 解析网页源代码层次结构
        List<HashMap<String, String>> maps = new ArrayList<HashMap<String, String>>();
        for (Element el : elements) {
            HashMap<String, String> map = new HashMap<String, String>();
            // 获取酒店图片
            String imgSrc = el.getElementsByTag("img").attr("src");
            // 获取酒店title
            String title = el.getElementsByTag("img").attr("alt");
            // 获取酒店的描述
            String content = el.getElementsByTag("p").text();
            map.put("imgSrc", imgSrc);
            map.put("title", title);
            map.put("content", content);
            //存储到List集合中用于前台遍历
            maps.add(map);
        }
        return maps;        
    }
    
    public static void main(String[] args) {

        String url = "http://tech.qq.com/";
        String encoding = "gbk";
        
        List<HashMap<String, String>> maps = getHotelInfo(url, encoding);
        if (maps != null && maps.size() > 0) {
            for (HashMap<String, String> map : maps) {
                System.out.println("title:" + map.get("title"));
                System.out.println("图片:" + map.get("imgSrc"));
                System.out.println("描述:" + map.get("content"));
            }
        }
        
        // 返回到页面显示

    }
    
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值