Java爬虫
Smile_Miracle
各位大牛多多提携
展开
-
JAVA爬虫--Jsoup的简单运用
很多人认为写爬虫必须用专业的爬虫语言python或者nutch之类的,其实java爬虫也能胜任许多工作。今天来说说我接触的第一个java爬虫,Jsoup方式的,值得注意的是JSOUP在对于静态页面的抓取效果很好,然而它只能抓取静态资源,所以如果要抓取动态资源的话,那就得换别的java爬虫,不多说先上代码:import org.jsoup.Jsoup;import org.jsoup.nodes.原创 2016-11-16 14:21:52 · 2272 阅读 · 1 评论 -
linux(centOs 6.5)配置 phantomjs
我下载的是phantomJS 2.0 版本的,链接https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.0.0-source.zip①首先到这个网站把这个phantomjs的zip包下载下来,然后通过winSCP或者其他linux图像化工具将这个包放在usr/lcoal/phantomjs下,这个位置可以自己改②解压缩:unzip p原创 2016-12-05 09:53:04 · 3287 阅读 · 0 评论 -
Java 爬虫工具Jsoup解析
Jsoup是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的主要功能如下: 1. 从一个 URL,文件或字符串中解析 HTML; 2. 使用 DOM 或 CSS 选择器来查找、取出数据; 3. 可操作 HTML 元素、属性、文本原创 2017-04-25 10:46:49 · 12572 阅读 · 4 评论 -
Java爬虫进阶-Jsoup+httpclient获取动态生成的数据
前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮掩,比如说加密啊动态加载啊,这无形中给我们写的爬虫程序造成了很大的困扰,那么我们如何来突破这个梗获取我们急需的数据呢,下面我们来详细讲解一下如何获取String startPage="https://i原创 2017-04-25 16:16:44 · 11197 阅读 · 0 评论 -
Java爬虫进阶-HtmlUnit使用解析
大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实际的应用角度谈谈我对于这两个组件的看法,并记录在博客中,以便日后翻阅,欢迎大家批评指正。 本文主要比较两者的优劣性以及介绍应用中的使用技巧,推荐一些入门资料以及非常实用的辅助工具,希望能对大家有所帮助。 大家有任何疑问或者建议希望留言给我,一起交流学习。下面我们首转载 2017-04-25 17:38:19 · 10265 阅读 · 1 评论 -
Java爬虫进阶-Selenium+PhantomJs的运用
selenium Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建衰退测试检验软件功能和用户需求。支持自动录制动作原创 2017-04-26 18:17:16 · 27759 阅读 · 17 评论 -
Java爬虫进阶-phantomJS+selenium2抓取网站图片和小说
闲来无事,应小伙伴要求,最近写了一个专门爬取小说和美女图片的爬虫工具类,有不足之处欢迎小伙伴们指出。准备工作: 新建maven工程,导入pom依赖如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst...原创 2018-06-05 09:42:12 · 1430 阅读 · 0 评论