Java实现爬虫

本文介绍了使用Java实现爬虫的方法,包括HttpClient基础爬取、Jsoup解析HTML以及WebMagic爬虫框架的应用。详细阐述了WebMagic的四大组件:Downloader、PageProcessor、Scheduler和Pipeline,并讨论了爬虫的配置、启动和终止。同时,对网络爬虫的分类进行了简要说明,如通用、聚焦、增量和深层网络爬虫。最后,探讨了数据去重的策略,如HashSet、Redis和布隆过滤器。
摘要由CSDN通过智能技术生成
爬虫(crawler):是一种按照一定的规则,自动抓取万维网信息的程序或者脚本

HttpClient方式


以get请求方式进行举例:
引入jar包:httpclient

  @Test
    public void test() throws Exception{
        // 创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        // 创建网络请求对象
        HttpGet httpGet = new HttpGet("http://www.oschina.net/");
        // 执行爬取,并且获得结果
        CloseableHttpResponse httpResponse = httpClient.execute(httpGet);
        // 处理爬取结果
        if (httpResponse.getStatusLine().getStatusCode()==200){
            // 响应状态为200,处理爬取结果
            HttpEntity entity = httpResponse.getEntity();
            // 结果转化
            String toString = EntityUtils.toString(entity, "utf-8");
            System.out.println(toString);
        }
        // 关闭相关资源
        httpResponse.close();
        httpClient.close();
    }

Jsoup方式

引入jar包:jsoup -->commons-lang3+commons-io (工具包)
这是一款专门解析 html 页面的技术,所以有个硬性技能,就是要求会使用jquery\Selector选择器,否则标签你都选不对,更何况爬?
列举常用的规则:

tagname: 通过标签查找元素,比如:span
#id: 通过 ID 查找元素,比如:# city_1
.class: 通过 class 名称查找元素,比如:.class_a
[attribute]: 利用属性查找元素,比如:[abc]
[attr=value]: 利用属性值来查找元素,比如:[class=s_name]

列举几个复杂的组合选择:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值