Jsoup实现简单的爬虫

最新推荐文章于 2024-02-25 13:30:46 发布

小白码上飞

最新推荐文章于 2024-02-25 13:30:46 发布

阅读量632

点赞数 1

文章标签：爬虫 java Jsoup html解析器

本文链接：https://blog.csdn.net/u011291072/article/details/77539952

版权

Java相关专栏收录该内容

25 篇文章 2 订阅

订阅专栏

一、背景

 
 项目上的实施人员需要把本省的各级区划录入我们的新系统，然而这项工作很繁琐，需要在国际统计局网站上查询区划信息，并且复制到Excel表格中，然后做进一步的数据处理。这会消耗大量的时间和人力，而且都是重复的操作。编程就是为了提高生产力和工作效率的，正好前几天在研究Java的爬虫，于是想，可以试着写一个爬虫把这数万个区划的信息都抓取下来吧，而且应该是很简单的爬虫。 

二、技术

 
 本次页面的爬取，我们使用Jsoup这个库。 

 
 Jsoup是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。总之，如果对HTML页面很了解的话，是可以很容易的用Jsoup来抓取页面的信息的。 

  代码中主要用了这几个方法： 

 
 Jsoup.connect(url).get()，这个方法返回一个document文档，用toString输出之后其实就是访问页面的源代码。
getElementsByClass(className)方法，Document的一个方法，如方法名所述，是根据class的名称获取元素列表。
getElementsByTag(tagName)方法，根据标签的名称获取相应的元素列表。
text()方法，Element的一个方法，用于获取元素内部的文本内容。
 

三、网页分析

 
 爬取一个网站的信息，肯定是要了解一下需要爬取的网页的格式。看了看国家统计局的网站，页面很简洁很有规律。 

查看一下源码，区划代码和区划名称的信息是在这个table里。

 
 所以我们在爬取的时候，只需要按照class获取这些tr中的数据就好啦。这里要注意的一点是，市级的区划，其class为citytr，区（县）级的为countytr，街道（乡）级的为towntr，社区（村）级villagetr。所以在爬取的时候这里要“区别对待”。 

 
 因为除了社区级区划，每一个区划都会有下级区划。对于一个区划的下级区划页面，我们需要获取这个页面的地址，然后在新的页面中获取下级区划的信息。其实各级区划就是个树形结构，所以我们只要沿着节点遍历就可以了，在代码中的实现方式就是迭代。 

 
 获取下级区划页面链接的时候，我们要注意，如果遍历到市辖区的区划代码，这里是没有下级区划的，与社区级区划类似，所以这里要做一下判断。 

 
 我们还需要注意的一点就是，社区级区划的页面有三列信息的，多了一个城乡分类代码，所以这里也要做判断。 

 
 好啦，下面就是代码实现了。代码的关键处也会有与上文分析相对应的注释，确保代码清晰明了。 

四、代码实现

 
 我的代码分为三部分，第一部分是爬取页面的主方法，进行迭代爬取。第二部分是将爬取的区划信息输出到Excel里。第三部分是，我发现有的时候有些页面会访问失败，所以我把这些访问失败的链接在爬取结束后输出出来，以便于后续做补偿操作。当然，我们也可以再重新将这些链接的页面爬取一下，不过我是懒得改啦，先这样吧。 

public class RegionSpider {
    private static List<JSONObject> regionList = new ArrayList<JSONObject>();//保存区划信息列表
    private static List<String> fileUrlList = new ArrayList<String>();//保存访问失败页面url
    private static int index = 1;//序号

    public static void main(String[] args) {
        String parentUrl = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/42.html";//根url地址
        getRegion(parentUrl);//第一步 区划查询
        createExcel(regionList);//第二步 输出到Excel
        for (String url : fileUrlList) {//第三步 输出失败链接
            System.out.println(url);
        }
    }

    /**
     * 区划抓取主方法
     * @param parentUrl
     */
    public static void getRegion(String parentUrl) {
        try {
            Thread.sleep(100);//防止访问速度太快影响服务器性能（其实是怕被屏蔽）
            int rootUrlLength = parentUrl.lastIndexOf("/");
            String parentRootUrl = parentUrl.substring(0, rootUrlLength + 1);//用于点击下一级区划时拼装的url的前部分url

            Document document = Jsoup.connect(parentUrl).get();
            //获取区划信息的tr
            Elements citytrElements = document.getElementsByClass("citytr");//市级
            //因为各级区划的class不一致，所以需要判断是否为空。如果为空则用下一级类型去选择元素。
            if (citytrElements.size() == 0) {
                citytrElements = document.getElementsByClass("countytr");//区（县）级
                if (citytrElements.size() == 0) {
                    citytrElements = document.getElementsByClass("towntr");//街道（乡）级
                    if (citytrElements.size() == 0) {
                        citytrElements = document.getElementsByClass("villagetr");//社区（村）级
                    }
                }
            }
            for (Element citytr : citytrElements) {
                String regionCode = "";
                String regionName = "";
                Elements tdElements = citytr.getElementsByTag("td");
                Elements regionCodeElements = tdElements.get(0).getElementsByTag("a");
                //如果当前节点没有下级区划，即不为<a>连接，则直接获取信息
                if (regionCodeElements.size() == 0) {
                    //如果是最底层区划，则有三个td
                    if (tdElements.size() == 3) {
                        regionCode = tdElements.get(0).text();
                        regionName = tdElements.get(2).text();
                    } else {
                        regionCode = tdElements.get(0).text();
                        regionName = tdElements.get(1).text();
                    }
                    JSONObject regionJson = new JSONObject();
                    regionJson.put("regionCode", regionCode);
                    regionJson.put("regionName", regionName);
                    regionList.add(regionJson);
                    printRegion(regionCode, regionName);
                } else {
                    //有下级区划，则进行迭代
                    String regionUrl = regionCodeElements.get(0).attr("href");
                    regionCode = regionCodeElements.get(0).text();
                    Elements regionNameElements = tdElements.get(1).getElementsByTag("a");
                    regionName = regionNameElements.get(0).text();
                    JSONObject regionJson = new JSONObject();
                    regionJson.put("regionCode", regionCode);
                    regionJson.put("regionName", regionName);
                    regionList.add(regionJson);
                    printRegion(regionCode, regionName);
                    String url = parentRootUrl + regionUrl;
                    getRegion(url);
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
            fileUrlList.add(parentUrl);
            System.out.println("未访问的地址：" + parentUrl);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    /**
     * 输出Excel文件
     * @param list
     */
    public static void createExcel(List<JSONObject> list) {
        //TODO 生成Excel
    }

    /**
     * 输出抓取的信息
     * @param regionCode
     * @param regionName
     */
    public static void printRegion(String regionCode, String regionName) {
        System.out.println("第" + index + "条:" + regionCode + "-" + regionName);
        index++;
    }
}

  对于生成Excel的方法，在实际情况中使用了Apache POI的HSSFWorkbook类生成的，具体实现就不贴在这里了，因为和我们的主题爬虫没有什么关系。之后我会把源码上传上来，方便大家查看并且批评指正。 

小白码上飞

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
Jsoup实现简单的爬虫

平时一提到爬虫，我们想到的就是使用python来写爬虫。其实只会Java的话，也可以使用Jsoup来实现爬虫，简单又方便！
复制链接

扫一扫

专栏目录