![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java爬虫
咸鱼最牛逼
这个作者很懒,什么都没留下…
展开
-
三、爬虫辅助工具 SeimiAgent
(一)作用 简单点说,有些页面元素是靠js动态加载的,那么我们在使用爬虫时,无法直接取到这些动态加载的DOM元素。而使用 SeimiAgent 工具以后,它会在我们取DOM元素之前,预先将js动态加载的部分先加载出来,这样我们就可以向取普通DOM元素一样进行处理。(二)安装1、先去SeimiAgent官网下载最新的工具包2、centos上操作yum -y install gcc gcc...原创 2018-12-26 20:08:33 · 1206 阅读 · 0 评论 -
十二、学习爬虫框架WebMagic(八)---访问超时、402等解决办法
一、问题备注:在前面一章我们提到,我们使用 redis 来实现去重和增量爬取,这是本篇文章的前提。 在使用 webmagic 爬取小说网站时,由于网络或者访问过于频繁时,小说网站服务器会返回超时、402/400/502等错误,但是这些URL依然会被记录到redis中,这样就带来一个问题:我们在下次进行增量爬取时,这些URL不会再被访问(PS:去重的依据就是redis中有的,将不会再被爬取...原创 2019-01-31 11:53:33 · 6057 阅读 · 13 评论 -
十一、学习爬虫框架WebMagic(七)---实战小技巧
(一)Site.sleepTime的设置问题 Webmagic 框架默认的休眠时间为5000(5s),我看网上一般设置为1000(1s),经实际验证,若休眠时间过短,在多线程访问页面时,会报大量的403错误,所以这里在爬取线程过多时,不妨就用框架默认的休眠时间。(二)page.setSkip() Webmagic通过 Processor 和 Pipeline 组件,将爬取页面和爬取之后的...原创 2019-01-27 22:39:56 · 845 阅读 · 0 评论 -
十、学习爬虫框架WebMagic(六)---去重和增量爬取
一、问题缘由(一)去重 笔者最近正在做一个爬取小说网站的后台端,遇到一个问题:有些URL重复爬取了。尽管重复爬取的页面不多,但是还是对程序造成了一些困扰,所以尝试去找到一种可以百分百去重的手段。 通过查阅相关资料,知道 Webmagic 去重靠的是Scheduler,默认使用的是QueueScheduler,同时在资料中还看到了 RedisScheduler。我们都知道,Redis 具有...原创 2019-01-27 11:58:58 · 4046 阅读 · 26 评论 -
九、学习爬虫框架WebMagic(五)---为webmagic添加监控
(一)目的 设置页面下载成功、失败的监听器,方便失败的时候做一些善后处理,比如把失败的url再加入到爬取队列里面,这样就不会遗漏一些页面的爬取。 通过设置Request.CYCLE_TRIED_TIMES设置失败重试次数,可以强制把url加到待爬队列里面,避免去重机制把url看成已爬过的。(二)代码private static void addSpiderListeners(Spide...原创 2019-01-02 21:36:54 · 1422 阅读 · 0 评论 -
八、学习爬虫框架WebMagic(四)---使用webmagic+Selenium爬取小说
一、案例说明 本案例以爬取某小说网站某本小说为例(PS:避免商业问题,这里不提小说网站名)二、先期准备 关于 webmagic+Selenium 的相关依赖,参见 七、学习爬虫框架WebMagic(三)—webmagic+Selenium爬取动态页面三、构建项目(一)项目分析 在某小说网站找到一本小说的列表,如下: 根据页面,然后分析网页源码,可知在这个页面中,下一页的网址...原创 2019-01-01 20:02:02 · 2466 阅读 · 1 评论 -
七、学习爬虫框架WebMagic(三)---webmagic+Selenium爬取动态页面
一、添加依赖 <!-- selenium-java客户端段 --> <dependency> <groupId>org.seleniumhq.selenium</groupId>原创 2018-12-30 22:02:36 · 16336 阅读 · 35 评论 -
六、学习爬虫框架WebMagic(二)---使用注解编写爬虫
(一)案例package org.pc.webmagic;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.model.ConsolePageModelPipeline;import us.codecraft.webmagic.model.OOSpider;import us.codecraft.webmagi...原创 2018-12-30 15:36:38 · 869 阅读 · 0 评论 -
二、爬虫辅助工具 selenium
一、应用场景页面点击拖动,加载内容元素拖动,验证码破解执行js,数据获取模拟登入参数无法获取二、准备浏览器:chrome驱动包:浏览器版本、http://chromedriver.storage.googleapis.com/index.html 下载对应的驱动Java对应webdriver 依赖的jar包三、项目(一)添加依赖 <dependency&gt...原创 2018-12-24 22:45:10 · 724 阅读 · 0 评论 -
一、爬虫相关理论基础
参见 从头学习爬虫一至 九转载 2018-12-24 22:08:19 · 601 阅读 · 0 评论 -
五、学习爬虫框架WebMagic(一)---入门案例
一、WebMagic简介 参见网上其他介绍。二、添加依赖 <!-- webmagic 核心包 --> <dependency> <groupId>us.codecraft</groupId&a原创 2018-12-29 17:06:10 · 10285 阅读 · 2 评论 -
三十四、Springboot集成SpringCache + Redis,实现缓存
Springboot集成SpringCache + Redis,以利用SpringCache的注解和Redis的存储、过期等。(一)自定义缓存配置文件@Configurationpublic class CacheConfiguration { /** * 搜索小说缓存 */ public static final String BOOKS_SEARC...原创 2019-02-19 22:27:24 · 942 阅读 · 0 评论