链家地产页面抓取实验以及二手房信息统计概览

项目参考:LianJiaSpider

原本该练习项目是想用来搜索购物网站某商品的降价抢购信息的,比如《什么值得买》。
但是那个网站貌似有防爬虫机制,因此转移目标,改搜搜二手房信息,想想应该会有人有这种需求的,呵呵呵呵呵呵呵呵。。。。。

正好链家地产的页面可以顺利抓取,而且该网站的房源信息查询条件是直接拼接在URL中的,拼接规则极其简单。所以就拿这个网站下手了=。=

涉及工具

主要还是用MAVEN构建项目,引入了几个基础包:

  1. apache httpclient - 用于处理HTML请求

  2. jsoup - 用于处理HTML页面文档

  3. mysql-connector-java + c3p0 - 用于连接数据库

项目主要设计

单例模式URL管理

由于在查询某一搜索条件的结果页的时候,往往遇到分页的情况需要分析当前结果页是否有分页,如果有则添加所有分页的URL,留着后期处理,因此要将URL设计成一个公共的资源。

目前该项目爬虫为单一线程,但是为了后期扩展成多线程模式,要让所有爬虫能访问URL列表资源,并且能动态添加URL记录,就应该考虑
到同步的问题。因此,将URL资源设计成单例模式管理。代码如下(核心是stack,同步锁暂未添加):


public class URLPool {

    private static URLPool Instance;
    private Stack<String> stack;

    private URLPool(){
        stack = new Stack<String>();
    }

    public static URLPool getInstance(){
        if(Instance == null){
            Instance = new URLPool();
        }
        return Instance;
    }

    //批量添加URL
    public void batchPush(List<String> URLS){
        for(String URL : URLS){
            if(!stack.contains(URL)){
                stack.push(URL);
            }
        }
    }

    //添加URL
    public void pushURL(String URL){
        if(!stack.contains(URL)){
            stack.push(URL);
        }
    }

    //是否有更多URL
    public boolean hasNext(){
        return !(stack.isEmpty());
    }

    //弹出一个URL
    public String popURL(){
        if(hasNext()){
            return stack.pop();
        } else {
            return null;
        }
    }
}

HttpClient 请求

主要使用HttpClient封装一个GET方法来请求HTML。同时,为后期模拟浏览器方便,预留了RequestHeader修饰方法。代码如下

GET方法

public static final String CHARSET = "UTF-8";

    public static String httpGet(String pageUrl, HttpHeader header) throws Exception{
        return getAction(pageUrl, header);
    }

    public static String httpGet(String pageUrl) throws Exception{
        return getAction(pageUrl, null);
    }

    private static String getAction(String pageUrl, HttpHeader header) throws Exception{
        @SuppressWarnings("resource")
        HttpClient client  = new DefaultHttpClient();
        HttpGet httpGet = new HttpGet();
        httpGet.setURI(new URI(pageUrl));
        String content = "";
        if(header != null){
            httpGet = header.attachHeader(httpGet);
        }
        BufferedReader in=null;
        try {
            HttpResponse response = client.execute(httpGet);      
            if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {      
                    in = new BufferedReader(new InputStreamReader(response.getEntity().getContent()));
                    StringBuffer sb = new StringBuffer("");
                    String line = "";
                    while((line = in.readLine())!=null){
                        sb.append(line).append("\n");
                    }
                    in.close();
                    content = sb.toString();

            } else {
                throw new Exception("网络解析错误:" + response.getStatusLine());
            }
        } catch (Exception e) {
            throw e;
        } finally{
            if(in != null){
                in.close();
            }
        }
        return content;
    }
RequestHeader 修饰

public class HttpHeader {

    private HashMap<String,String> headerMap ;

    public HttpHeader (HashMap<String, String> map){
        this.headerMap = map;
    }

    public HttpHeader(){
        this.headerMap = new HashMap<String, String>();
    }

    public void addParam(String key, String value){
        this.headerMap.put(key, value);
    }

    public Map getHeaderMap(){
        return this.headerMap;
    }


    public HttpGet attachHeader(HttpGet httpGet){
        for(String key : this.headerMap.keySet()){
            httpGet.setHeader(key, this.headerMap.get(key));
        }
        return httpGet;
    }

}

HTML处理(jsoup)

这里主要是将上边GET到的HTML字符串封装成jsop document的格式,然后用jsoup的API对文档进行分析,提取所需的数据。代码不贴了,API请参考:

jsoup cookbook

抓取结果及简单统计

原始数据

由程序抓取的记录存储在MySQL中。

这里写图片描述

EXCEL简单透视

通过简单EXCEL透视图表可以得到一些直观的数据,没有做深入挖掘,尝试了几个参数的组合。

查询条件:朝阳、海淀二手房(房屋售价也有限制,这就不说了)。

房屋修建时间分布

这里写图片描述

区域在售房屋数量分布

这里写图片描述

区域平米售价

这里写图片描述

楼型分布

这里写图片描述

区域在售房屋平均面积

这里写图片描述

…..

啥也不说了,搬砖去了,呵呵呵呵呵呵呵。。。。。。。。。。。。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值