博客专栏  >  编程语言   >  Java-网络爬虫

Java-网络爬虫

从入门到深入,争取用最浅显易懂的方式帮助你快速上手Java网络爬虫

关注
7 已关注
15篇博文
  • Java网络爬虫(十三)--重构定时爬取以及IP代理池(多线程+Redis+代码优化)

    一直觉得自己之前写的使用定时抓取构建IP代理池实在过于简陋,并且有一部分的代码写的并不合理,刚好最近又在学习多线程,就将之前的代码进行了重构,也方便对抓取代理ip有需求的人。之前自己写的那篇文章也就不...

    2017-08-10 17:16
    249
  • Java网络爬虫(十二)--使用多线程全面提升爬虫性能

    在开始说正事之前我先给大家介绍一下这份代码的背景,以免大家有一种雾里看花的感觉。在本系列的前几篇博客中有一篇是用多线程进行百度图片的抓取,但是当时使用的多线程是非常粗略的,只是开了几个线程让抓取的速度...

    2017-06-14 15:04
    1695
  • Java网络爬虫(十一)--使用redis数据库构建爬虫队列

    代码思想主要是广度优先搜索,有不了解的同学可以下去了解一下算法思想,我们直接来看代码:redis数据库爬虫队列代码:package redisqueue;import redis.clients.je...

    2017-06-12 20:48
    744
  • Java网络爬虫(十)--海量URL去重之布隆过滤器

    简介布隆过滤器当我们要对海量url进行抓取的时候,我们常常关心一件事,就是url的去重问题,对已经抓取过的url我们不需要在进行重新抓取。在进行url去重的时候,我们的基本思路是将拿到的url与已经抓...

    2017-06-06 19:40
    1061
  • Java网络爬虫(九)--使用多线程进行百度图片的抓取

    声明:如需转载本篇文章,请进行私聊并在文章首处注明出处,本代码未经授权不可用于获取商业价值,否则后果将由自己承担。这次的需求大概是从百度图片里面抓取任意的分类的图片,考虑到有些图片的资源不是很好,并且...

    2017-05-21 02:05
    1241
  • Java网络爬虫(八)--实现定时爬取与IP代理池(反反爬)

    注:对代码及思路进行了改进—Java网络爬虫(十三)–重构定时爬取以及IP代理池(多线程+Redis+代码优化)定点爬取当我们需要对金融行业的股票信息进行爬取的时候,由于股票的价格是一直在变化的,我们...

    2017-04-27 20:22
    2700
  • Java网络爬虫(七)--JSON数据的解析

    有时候,我们抓取下来一个html页面,发现浏览器页面可以显示的东西在html源码中却没有,这时候我们就要考虑服务器是以JSON格式将这部分数据发送到客户端的,对于这种情况的处理方式我们一般是在chro...

    2017-04-02 20:42
    1448
  • Java网络爬虫(六)--使用Jsoup的select语法进行元素查找

    使用Jsoup进行元素的查找有两种方法。有使用DOM方法来遍历一个文档,也有使用选择器语法来查找元素,而后者类似于CSS或jQuery的语法来查找和操作元素。对于这两个方法到底使用哪个感觉好上手我觉得...

    2017-03-30 20:33
    1222
  • Java网络爬虫(五)--Jsoup的使用

    在前面几章,我已经对HttpClient的基本使用进行了总结,而且对于一般性的需要登录的网站大家怎么进行模拟登录也有了一定的了解,也就是说,通过前几篇的学习,你已经学会了通过HttpClient进行网...

    2017-03-30 18:26
    613
  • Java网络爬虫(四)--使用HttpClient返回实体内容

    在前几篇博客中,一直讲的是使用HttpClient进行请求操作,并判断请求是否成功,但既然做网络爬虫,我们就需要将整个页面的Html拿下来进行分析,这时候就要用到HttpClient的返回实体的内容,...

    2017-03-28 19:37
    580
  • Java网络爬虫(三)--如何判断自己的模拟登录是否成功

    “怎么判断模拟登陆是否成功”我最开始的时候也问过这个问题,当时对所有流程都还不熟悉,而且写的代码没一个能成功的,就给自己提了一大堆的问题,也在论坛上发表提问,在这个过程中,我遇到了很多的情况,好多都能...

    2017-03-28 17:48
    759
  • Java网络爬虫(二)--HttpClient设置头部信息(模拟登录)

    在网络爬虫中我们经常需要设置一些头部信息,使我们进行网页抓取的行为更加像浏览器的行为,并且我们有时需要将头部信息设置正确,才能得到正确的数据,要不然有可能得到和浏览器所展示的页面有出入的信息。设置头部...

    2017-03-26 23:44
    3924
  • Java网络爬虫(一)--HttpClient的使用

    觉得自己是时候该沉淀了。。。说起来,自学Java网络爬虫也有两个月了,期间走了很多弯路,我也不仅对Java和Python这两们同样都能搞爬虫的语言但与之相关的文档与书籍的差别感到惊讶,对于Java来说...

    2017-03-26 21:55
    1259
  • Java网络爬虫--正则表达式之详解贪婪、逐步、独吐量词

    除过正则表达式的基本概念与特性还有使用方法之外,我们在解析html的时候,如果要进行字符串的匹配,必须还要熟悉正则表达式之中量词的使用法则,今天我们就来谈谈贪婪、逐步、独吐这三种量词的使用。贪婪量词我...

    2017-05-28 23:01
    364
  • Java网络爬虫--HTML DOM(HTML 基础)

    最近一直在学习Java方面的网络爬虫,然后要使用Jsoup解析html页面(htmlparse已经不建议使用了),但是对于Jsoup中的很多类和方法都很疑惑,查阅相关资料后发现使用Jsoup之前首先要...

    2017-02-27 23:16
    743

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部