博客专栏  >  综合   >  JAVA爬虫实践

JAVA爬虫实践

Java爬虫的深入学习,由简单的静态资源抓取到复杂的动态资源抓取

关注
3 已关注
6篇博文
  • JAVA爬虫--Jsoup的简单运用

    很多人认为写爬虫必须用专业的爬虫语言python或者nutch之类的,其实java爬虫也能胜任许多工作。今天来说说我接触的第一个java爬虫,Jsoup方式的,值得注意的是JSOUP在对于静态页面的抓...

    2016-11-16 14:21
    566
  • Java 爬虫工具Jsoup解析

    Jsoup是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和...

    2017-04-25 10:46
    3429
  • Java爬虫进阶-Jsoup+httpclient获取动态生成的数据

    前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮...

    2017-04-25 16:16
    2242
  • Java爬虫进阶-HtmlUnit使用解析

    大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实际的应用角度谈谈我对于这两个组件的看法,并记录在博客中,以便日后翻阅,欢迎大...

    2017-04-25 17:38
    1477
  • linux(centOs 6.5)配置 phantomjs

    我下载的是phantomJS 2.0 版本的,链接https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.0.0-source.zip①...

    2016-12-05 09:53
    804
  • Java爬虫进阶-Selenium+PhantomJs的运用

    selenium Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozi...

    2017-04-26 18:17
    5441

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部