![](https://img-blog.csdnimg.cn/20181128101355873.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Java爬虫框架汇总
Java爬虫,这里集合了目前开源框架的爬虫框架
JavaPub-rodert
技术&自媒体,专注于面试技巧,擅长Java、Go、MySQL、区块链
展开
-
webcollector 爬虫框架使用说明
学习使用,看到WebCollectorWebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。目前WebCollector在Github上维护:https://github.com/CrawlSc...原创 2018-11-12 17:49:06 · 4141 阅读 · 4 评论 -
【转载】seimicrawler爬虫
Java分布式爬虫seimicrawler:https://blog.csdn.net/z2464342708m/article/details/80689030转载 2018-11-28 09:46:42 · 887 阅读 · 0 评论 -
【转载】HTTPClient爬虫简单使用
https://blog.csdn.net/weixin_39389850/article/details/78905392转载 2018-11-27 16:14:54 · 391 阅读 · 0 评论 -
【转载】SeimiCrawler
SeimiCrawler2.0https://blog.csdn.net/zhegexiaohuozi/article/details/80809922demo:https://github.com/zhegexiaohuozi/SeimiCrawler/tree/master/spring-boot-example转载 2018-11-26 22:32:45 · 986 阅读 · 0 评论 -
【转载】 selenium 刷新
Java1.driver.navigate().refresh();2.driver.get(driver.getCurrentUrl());3.driver.navigate().to(driver.getCurrentUrl());4.driver.findElement(By.id("Contact-us")).sendKeys(Keys.F5); 5.driver.execu...原创 2018-11-26 12:56:36 · 805 阅读 · 0 评论 -
【转载】在Java中使用xpath对xml解析
想绕过xpath,其实很简单,看下面https://www.cnblogs.com/vastsum/p/5940235.html 下面是一个小demo入门很详细(下面解析的是我用jsoup抓取的html页面)//首先在dom4j中如何使用xpath技术导入xPath支持的jar包。jaxen-1.1-beta-6.jar//(首先要先导dom4j包,dom4j下载地址:http:...转载 2018-11-24 21:13:50 · 737 阅读 · 0 评论 -
【转载】Java+Selenium3-iframe切换的问题
https://blog.csdn.net/u011541946/article/details/73695239html嵌套iframe转载 2018-11-24 18:45:08 · 582 阅读 · 0 评论 -
selenium+java入门demo
看到这里,我就不介绍太多的selenium是什么了(jar包:https://download.csdn.net/download/qq_40374604/10807974)需要的jar包和常见问题在个人分类的其他文章中demo中有phantomjs,无浏览器访问,相关文章请看个人博客爬虫分类另外(访问像微博https://weibo.com/这样的网站,用到...driver.fin...原创 2018-11-24 14:15:15 · 2003 阅读 · 0 评论 -
selenium之 chromedriver与chrome版本映射表(更新至v2.43)
看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望对大家有用:chromedriver版本 支持的Chrome版本v2.43 v69-71v2.42 v68-70v2.41 v67-69v2.40 v66-68v2.39 v66-68v2.38 v65-67v2.37 ...原创 2018-11-24 11:27:30 · 3926 阅读 · 9 评论 -
Selenium Webdriver常见问题
问题一:Java+selenium chrome 常见的问题WebDriverException: unknown error: call function result missing 'value'运行chrome浏览器 报错:"main" org.openqa.selenium.WebDriverException: unknown error: call function resu...原创 2018-11-24 11:13:12 · 479 阅读 · 0 评论 -
{转载保存}selenium+java使用方法及无界面浏览器使用
http://www.cnblogs.com/sincoolvip/p/7451652.htmlhttps://www.cnblogs.com/sincoolvip/category/1068774.html 基于python的Selenium博客专栏:https://blog.csdn.net/huilan_same/article/details/52615123基于Ja...转载 2018-11-24 10:57:31 · 1414 阅读 · 0 评论 -
【转载保存】Selenium Webdriver元素定位的八种常用方式
转载地址:https://www.cnblogs.com/qingchunjun/p/4208159.html转载 2018-11-24 10:19:13 · 341 阅读 · 0 评论 -
【转载】crawler4j开源爬虫框架Java
完整教程:https://www.cnblogs.com/sharpest/p/7877501.htmlhttps://blog.csdn.net/qq_34337272/article/details/78815547转载 2018-11-28 10:09:21 · 455 阅读 · 0 评论 -
jsoup的Elements类
一、简介该类是位于select包下,直接继承自Object,所有实现的接口有Cloneable, Iterable, Collection, List类声明:public class Elements extends Object implements List, Cloneable可以使用Element.select(String) 方法去得到Elements 对象。二、构造方法...转载 2018-11-23 15:58:46 · 441 阅读 · 0 评论 -
【转载保存】Jsoup使用
https://blog.csdn.net/ricky73999/article/details/54989972http://www.cnblogs.com/langtianya/p/3880132.html转载 2018-11-23 14:05:14 · 295 阅读 · 0 评论 -
【转载】HtmlUnit优秀文章
博客地址:https://www.cnblogs.com/davidwang456/articles/8693050.htmlhttps://blog.csdn.net/anLA_/article/details/50199815https://www.cnblogs.com/yhdino/p/3263219.html原创 2018-11-21 16:51:05 · 405 阅读 · 3 评论 -
爬虫爬取一个div下多个标签
选取一个div下多个标签,遍历 Elements select = doc.select(".article p,.article img[src]");原创 2018-11-17 12:53:25 · 9952 阅读 · 0 评论 -
利用WebMagic的Cookie机制进行页面爬取
目前发布的WebMagic的最新版本仍然不支持post请求模拟登陆来抓取页面,但是相信,在后续的版本中,肯定会支持这项功能。那么要抓取登陆后才能看到的页面怎么办?一、用户自己发送post请求,将获取的cookie设置到Spider中二、用户使用抓包工具将抓到的cookie设置到Spider中本文只讨论第二种方式,第一种方式的抓取,博主会在后续的博客中实现本文抓取慕课网登陆后的个人...原创 2018-11-16 22:35:27 · 826 阅读 · 0 评论 -
webmagic需要jar包全部
webmagic-0.7.3版本官网:http://webmagic.io/docs/zh/posts/ch1-overview/thinking.html原创 2018-11-16 22:15:47 · 1850 阅读 · 4 评论 -
垂直搜索架构(爬虫部分) ------垂直爬虫
垂直爬虫的代码实现比较简单,主要是两方面:1. 限定url,一般是通过正则匹配2.限定内容,比如列表页面只要抓取详细页面的url,详细页面只要抓取特定内容,一般都是用css 选择器或者xpath的库取匹配内容垂直爬虫的技术难点没有全网爬出那么多,主要要解决的是反爬的问题.针对性的做几个项目的垂直爬虫,你就慢慢形成了你自己的垂直爬虫框架,有了自己的任务管理,数据集存储,基本的数据处理器,实...原创 2018-11-12 21:37:47 · 1300 阅读 · 0 评论 -
各大主流编程语言-常用爬虫框架以及优劣分析
不要为下面大篇幅的文章感到畏惧,你定会收益匪浅,阅读下面资料大概需要三分钟一、前言目前市场上爬虫框架有很多,不同语言不同类型的爬虫框架都有,然而在开发预研的时候对于选择那种框架对于很多开发者来说尤为头疼;本篇主要总结一下市场上主流的开发语言中有哪些主流的爬虫框架,以及爬虫框架的优劣;希望在对你在选择合适爬虫框架中有所帮助。二、主流语言爬虫框架列表常用爬虫框架列表JAVA...原创 2018-11-12 18:40:08 · 2226 阅读 · 0 评论