爬虫
snowflakefengzf
江湖
展开
-
网页内容获取工具 jsoup
jsoup 是一款基于 Java 语言的 HTML 请求及解析器,可直接请求某个 URL 地址、解析 HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM、CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的下载 首先,我们在 Eclipse 中创建 Maven 工程,并配置 pom.xml 文件。基于下面的配置文件便可以下载 jsoup 对应的 Jar 包...转载 2018-10-15 10:57:02 · 709 阅读 · 0 评论 -
网页内容获取工具 HttpClient
HttpClient 简介 HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。其相比于传统 JDK 自带的 URLConnection(下一篇会讲解),增加了易用性和灵活性。其功能主要是用来向服务器发送请求,并返回相关资源。在网络爬虫实战中,经常使用...转载 2018-10-15 11:13:30 · 503 阅读 · 0 评论 -
网页内容获取工具 URLConnection
URLConnection 是 JDK 自带的一个抽象类,其代表应用程序和 URL 之间的通信链接。在网络爬虫中,我们可以使用 URLConnection 请求一个 URL 地址,然后获取流信息,通过对流信息的操作,可获得请求到的实体内容。 URLConnection 的使用 创建 URLConnection 对象 使用 URLConnection 时,我们无法直接实例化对象,但可以通过在 URL...转载 2018-10-15 11:28:31 · 263 阅读 · 0 评论 -
HTML 和 XML 数据的分析与解析
目前在 Java 中,解析 HTML 工具主要包含以下几种: 1、jsoup:强大的 HTML 解析工具,支持以 jQuery 中 CSS Selector 的方式提取 HTML 中的元素,学习成本较低。 2、HtmlCleaner:另外一款开源的 Java 语言的 HTML 文档解析器,支持以 XPath 的方式提取 HTML 中的元素。另外,在此说明,学习 XPath 语法对于使用另外一款基于...转载 2018-10-15 11:49:42 · 542 阅读 · 0 评论 -
数据存储方式之 TXT 文本
Java 操作文件输入流与输出流,具体内容包括 File 类、文件字节流与字符流、缓冲流。最后以网络爬虫实战案例,讲解其具体的使用方式。 输入流、输出流简介 在 Java 中,流是从源到目的地的字节的有序序列。Java 中有两种基本的流——输入流和输出流。输入流与输出流提供了一条通道,使用该通道可以读取源中的数据或者把数据传送到目的地。示意图如下: Java 中 java.io 包几乎包含了所有...转载 2018-10-15 13:29:57 · 3426 阅读 · 0 评论 -
数据存储方式之 Excel
网络爬虫爬取的少量数据,可以使用 Excel 进行存储。本篇将主要讲解如何使用 Java 操作 Excel,具体包括 Excel 数据的读取以及 Excel 数据的写入。 在 Java 中主要涉及到两款操作 Excel 的工具:Jxl 以及 Apache 旗下的 POI 工具。本篇将主要介绍这两个工具的使用,并给出具体的网络爬虫实战案例。 Jxl 的使用 Jxl 是一款常用的 Java 操作 Ex...转载 2018-10-15 14:52:51 · 3103 阅读 · 0 评论