Java爬虫学习
文章平均质量分 76
stalin_
程序员界的小学生
展开
-
Java爬虫(四)-- 爬虫必备页面测试框架:Selenium结合Webmagic实战(含demo)
一、Selenium介绍Selenium是一个开源的测试化框架,框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,由于它可以模拟用户操作,功能比较强大,所以在爬虫上也是比较常用的一种手段。二、selenium安装(以谷歌浏览器为例)1、首先你需要安装谷歌浏览器。2、安装后看一下谷歌浏览器的版本。找到 设置–关于在该地址下找到对应自己浏览器版本的驱动:https://chromedriver.chromium.or原创 2022-01-10 11:16:38 · 1303 阅读 · 0 评论 -
Java爬虫(三)-- 爬虫框架WebMagic的使用(以csdn页面为例)
一、WebMagic介绍WebMagic是当前比较主流的一款Java爬虫框架。WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现(这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。),而扩展部分则包括一些便利的、实用性的功能(例如注解模式编写爬虫等)。二、WebMagic组成WebMagic的设计目标是尽量的模块化,并体现爬虫的功能特点。WebMagic的结构分为Downloader、PageProcesso原创 2021-12-29 11:26:54 · 1887 阅读 · 2 评论 -
Java爬虫(二)-- 页面解析神器Xpath的介绍及使用
XPath 是一门在 XML 文档中查找信息的语言,由于我们使用的一些爬虫解析工具基本都是可以把html页面转成xml格式的对象。加上webmagic本身支持使用Xpath抽取元素,所以使用Xpath进行解析十分的方便。1、选取节点表达式描述nodename选取此节点的所有子节点。/从根节点选取(取子节点)。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)。.选取当前节点。…选取当前节点的父节点。@选取属性。2原创 2021-12-09 17:02:13 · 1050 阅读 · 1 评论 -
Java爬虫(一)-- HttpClient,HttpClient连接池,Jsoup的使用
网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。在Java中模拟HTTP协议客户端一般使用 HttpClient这个技术,来实现抓取网页数据。而由于爬虫会发送很多请求,频繁创建销毁HttpClient会大量消耗服务的资源,所以我们会使用连接池来获取HttpClient。而Jsoup则用来解析抓取到的网页数据中的内容。下面我就为大家逐一介绍这三个爬虫的基础工具的使用。一、 HttpClient1、原创 2021-11-16 18:21:59 · 1637 阅读 · 0 评论