Java爬虫
文章平均质量分 92
Java爬虫入门到熟练,该专栏可用于学习爬虫从入门到熟练的理论知识,也有项目中遇到的部分问题的解决方案,静态页面、动态页面双爬。
假正经的小柴
双非也有编程梦!在读大三,是一个爱看源码的小伙.....
展开
-
【Java-Crawler】爬取动态页面(HtmlUnit、WebMagic)
简单易用的工具——HtmlUnit,它可以模拟浏览器的行为,支持JavaScript解析和执行,可以用于解析动态页面。但它解析JavaScript的时候也是比较慢的,但后续用 WebMagic 去处理静态页面就快起来了。就比如说处理某网站的主页(动态页面)是需要解析JavaScript的,但主页里面的超链接对应的网页是静态网页,这可以直接用WebMagic去处理就可以了,速度就有了。原创 2023-05-26 13:11:20 · 2164 阅读 · 0 评论 -
【Java-Crawler】SpringBoot集成WebMagic实现爬虫出现的问题集(一)
引入 WebMagic 需要两个依赖,一个是WebMagic核心依赖webmagic-core,一个是WebMagic拓展依赖webmagic-extension,一般使用拓展依赖去拓展一个日志实现。而 SpringBoot默认的日志框架是logback,然而webmagic-core依赖中还内部依赖着reload4j日志,会引起冲突。原创 2023-05-26 11:45:04 · 1329 阅读 · 0 评论 -
【Java-Crawler】爬取动态页面(WebMagic、Selenium、ChromeDriver)
WebMagic仅能解析静态页面,如果需要爬取JavaScript被解析后的页面,我们可以试着用Selenium+ChromeDriver去实现。原创 2023-05-24 13:49:30 · 2115 阅读 · 8 评论 -
【Java-Crawler】一文学会使用WebMagic爬虫框架
爬虫主要分为采集、处理、存储三个部分。在学 WebMagic 框架之前,需要了解 HttpClient、Jsoup(Java HTML Parse) 库,因为 WebMagic 框架内部运用了他们,在你出现问题看源码去查错时,如果不知道 HttpClient、Jsoup 的话,可能不知道怎么回事。主要是 WebMagic 如果脱离了这俩就不能说是一个容易入门的爬虫框架了。WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件。原创 2023-05-23 22:23:44 · 855 阅读 · 0 评论 -
【Java-Crawler】HttpClient+Jsoup实现简单爬虫
网络爬虫(Web Crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以自动采集所有其能够访问到的页面内容,以获取相关数据。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。本篇说明了HttpClient和Jsoup如何使用,并写了个小项目可进行巩固。原创 2023-05-21 15:42:55 · 899 阅读 · 0 评论