![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 81
爬虫
子非我鱼
你非我,安知你知我之乐!
展开
-
java爬虫 (六) - Selenium(浏览器自动化测试框架)
1,Selenium(浏览器自动化测试框架)Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),[Mozilla Firefox](https://baike.baidu.com/item/Mozilla Firefox/3504923),Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能原创 2021-07-28 16:12:27 · 1076 阅读 · 0 评论 -
java爬虫(四)- WebMagic
WebMagic1. WebMagic 简介架构2,WebMagic的四个组件3,用于数据流传的对象4,导入所需依赖5,在resource目录创建一个log4j.properties配置文件,内容如下:6,抽取元素 Selectable7,简单小案例8,获取链接9,WebMagic 抽取结果10,使用Pipeline保存结果11,Spider12,爬虫配置 Site4. 爬虫分类通用网络爬虫聚焦网络爬虫增量式网络爬虫Deep Web 爬虫1. WebMagic 简介核心部分是一个精简的, 模块化的爬虫实原创 2021-06-30 16:51:37 · 867 阅读 · 0 评论 -
java爬虫 (三)- 京东案例
1,导入数据库// 创建crawler数据库, 再创建表CREATE TABLE `jd_item` ( `id` bigint(10) NOT NULL AUTO_INCREMENT COMMENT '主键id', `spu` bigint(15) DEFAULT NULL COMMENT '商品集合id', `sku` bigint(15) DEFAULT NULL COMMENT '商品最小品类单元id', `title` varchar(100) DEFAULT NULL COM原创 2021-06-25 18:50:22 · 561 阅读 · 0 评论 -
java爬虫(二)- Jsoup
爬虫入门jsoup 介绍1,准备环境,导入所需依赖2,获取网页第一个title标签的文本内容3,jsoup解析字符串|文件4,使用dom 方式遍历文档5,使用选择器获取元素6,select选择器组合使用jsoup 介绍jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器原创 2021-06-25 13:38:40 · 2822 阅读 · 0 评论 -
java爬虫(一) - HttpClient
爬虫入门网络爬虫简介为什么要学习爬虫下面演示httpClient方式普通 get 方式带参 get 方式普通 post 方式带参 post 方式创建连接池管理httpClient网络爬虫简介网络爬虫也叫网络机器人, 是一种可以按照一定规则自动采集互联网信息的程序或脚本, 爬虫一般分为数据采集, 处理, 储存三个部分, 从若干初始网页的URL开始抓取网页, 不断获取页面上的URL放入队列直到满足系统的一定条件停止为什么要学习爬虫可以实现私人的搜索引擎大数据时代获取数据源, 作数据分析可原创 2021-06-24 16:12:51 · 940 阅读 · 0 评论 -
java爬虫
方式一,采用jsoup方式关于jsoup的方法使用说明,想深入了解的看这个jsoupApi文档使用首先引入所需依赖: <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </de原创 2021-06-23 14:39:10 · 325 阅读 · 0 评论