
网络爬虫
文章平均质量分 85
Java网络爬虫基础
吴声子夜歌
个人学习记录
展开
-
Easy Excel——填充Excel
【代码】Easy Excel——填充Excel。原创 2023-09-23 22:26:03 · 5595 阅读 · 0 评论 -
Easy Excel——API
ReadWorkbook 可以理解成一个excelReadSheet 理解成一个excel里面的一个表单。原创 2023-09-23 21:35:58 · 387 阅读 · 0 评论 -
Easy Excel——写入Excel
Data/*** 所有的 字符串起前面加上"自定义:"三个字*/@ExcelProperty(value = "字符串标题", converter = CustomStringStringConverter.class)/*** 我想写到excel 用年月日的格式*/@DateTimeFormat("yyyy年MM月dd日HH时mm分ss秒")@ExcelProperty("日期标题")/*** 我想写到excel 用百分比表示*/原创 2023-09-23 17:53:38 · 9414 阅读 · 0 评论 -
EasyExcel——读取Excel
目录Easy Excel 读取1、读取单个sheet1.1、方式一1.2、方式二1.3、方式三1.4、方式四2、读多个sheet2.1、方式一2.2、方式二3、指定列的下标或列名4、日期、数字或者自定义格式转换5、多行头6、同步的返回6.1、方式一6.2、方式二7、读表头数据8、额外信息(批注、超链接、合并单元格信息读取9、读取公式和单元格类型10、异常处理11、不创建对象的读Easy Excel 读取1、读取单个sheet1.1、方式一@Datapublic class DemoData {原创 2023-09-22 23:08:34 · 13237 阅读 · 0 评论 -
网络爬虫——WebMagic的使用
WebMagic 是一个非常优秀的 Java 开源网络爬虫框架,其功能覆盖了网络爬虫的 整个生命周期,包括 URL 提取、网页内容下载、网页内容解析和数据存储。WebMagic 项目的源码可以在 GitHub 上进行下载。WebMagic 具有很好的灵活性和可扩展性,支持多线程数据采集和 URL 去重等。在实际应用中,用户可以通过定制 Pipeline 的方式实现其他数据存储需求,如将 数据存储到文本文件、Excel 中等。下面示例为定制的 Pipeline,其作用是将所采集的数据存储 到一个文件中。原创 2023-07-26 00:16:24 · 1982 阅读 · 0 评论 -
网络爬虫——WebMagic详解(二)
这里我们使用的是正则表达式来规定URL范围。可能细心的朋友,会知道.是正则表达式的保留字符,那么这里是不是写错了呢?其实是这里为了方便,WebMagic自己定制的适合URL的正则表达式,主要由两点改动:将URL中常用的字符.默认做了转义,变成了.将"“替换成了”.",直接使用可表示通配符。例如,https://github.com/*在这里是一个合法的表达式,它表示https://github.com/下的所有URL。原创 2023-07-25 00:12:44 · 1332 阅读 · 0 评论 -
网络爬虫——WebMagic详解(一)
Downloader、PageProcessor、Scheduler、Pipeline都是Spider的一个属性,这些属性是可以自由设置的,通过设置这个属性可以实现不同的功能。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。第一部分关于爬虫的配置,包括编码、抓取间隔、超时时间、重试次数等,也包括一些模拟的参数,例如User Agent、cookie,以及代理的设置,我们会在第4部分-“爬虫的配置”里进行介绍。爬虫的监控是0.5.0新增的功能。原创 2023-07-24 23:32:08 · 3863 阅读 · 0 评论 -
网络爬虫——Selenium的使用
Selenium 最初是由 Shinya Kasatani 基于火狐(Firefox)浏览器开发的工具,其主 要用于网站的自动化测试。读者可以在火狐浏览器中安装 Selenium IDE 插件,并使用 该插件录制在浏览器中的执行动作(如表单提交、单击和鼠标的移动等)。在本章中, 我们将重点介绍 Selenium WebDriver 的使用。Selenium WebDriver 主要应用于程序 (Java、Python 和 C#等)与浏览器的交互,其可以用来实现数据的采集。原创 2023-07-23 17:26:12 · 1156 阅读 · 0 评论 -
Word——Apache POI详解
要在 Word 文档中创建表格,我们可以使用位于 org.apache.poi.xwpf.usermodel.XWPFTable 包中的XWPFTable类。为了设置文本的样式、字体、对齐方式等,Apache POI 提供了setItalic()、setBold() 等方法。此方法返回文档所有段落的列表,该列表可以存储在列表变量中并通过迭代循环获取。为了将文本向右、向左和居中对齐,Apache POI 提供了 setAlignment() 方法,该方法采用对齐常量(例如 CENTER)。原创 2023-07-22 21:48:21 · 4868 阅读 · 0 评论 -
Excel——Apache POI详解
PropertyTemplate对象模拟了这种用方法和定义为允许绘图的顶部,底部常量,左,右,水平,垂直,里面,单元格外边界。为了将数据重写到现有的 Excel 文档中,Apache POI 提供了各种方法 getRow()、getCell()、getSheet() 等。为了处理 Excel (.xls) 文档,Apache POI 提供了完整的 API,其中包含可用于创建 excel、读取和写入数据的类和方法。它还提供了 SXSSF,它是 XSSF 的扩展,可以处理非常大的 Excel 表格。原创 2023-07-21 12:24:36 · 2875 阅读 · 0 评论 -
Excel存储——POI的使用
POI 是 Java 编写的开源跨平台 Excel 处理工具,功能比 Jxl 更强大。POI 不 仅提供了对 Excel 的操作,也提供了对 Word、PowerPoint 和 Visio 等格式的文档 的操作。POI 既可以操作 xls 文件(2007 版以前的 Excel)也可以操作 xlsx 文件(2007 版以后的 Excel)。处理xls常用类类说明Excel 工作簿 WorkbookHSSFSheetExcel 工作表 SheetHSSFRowExcel 行HSSFCell。原创 2023-07-20 23:23:38 · 429 阅读 · 0 评论 -
Excel存储——Jxl的使用
Jxl 是一款常用的 Java 中操作 Excel 的 API,但其只对 xls 有效,对 2007 版本以 上的 Excel(xlsx)很难处理。在本节中,主要介绍如何使用 Jxl 创建工作簿以及工作 表、读取 Excel 文件内容和写入 Excel 文件内容。原创 2023-07-20 17:23:59 · 557 阅读 · 0 评论 -
网络爬虫——Jsoup解析XML
如果要解析的字段为dat(e销售日期)和salesNum(销售数量),Jsoup 解析 XML 的方法与解析 HTML 的方法相同,皆使用 CSS 选 择器选择元素。原创 2023-07-19 23:12:12 · 642 阅读 · 0 评论 -
网络爬虫——HTMLParser解析HTML
HTMLParser 也是一款非常高效的 HTML 解析器,其支持 CSS 选择器提取 HTML中的节点。HTMLParser 的版本已不再更新,但并不影响其使用。原创 2023-07-19 21:23:38 · 2787 阅读 · 0 评论 -
网络爬虫——HtmlCleaner解析HTML
HtmlCleaner 是另外一款基于 Java 开发的 HTML 文档解析器,支持 XPath 语法提取 HTML 中的节点或元素。原创 2023-07-19 20:46:11 · 1303 阅读 · 0 评论 -
网络爬虫——Jsoup解析HTML
给定 HTML 字符串,可以使用 org.jsoup.Jsoup 类中的 parse(String html)方法,将 String 类型的 HTML 文件转化成 Document 类型。这四种方法传递的参数分别是 Document 类型 的 HTML 文档、Elements 类型的元素集合、String 类型的 HTML 字符串和 String 类型 的 URL。而 JsoupXpath 则是在 Jsoup 的基础上扩展的支持 Xpath 语法的 HTML 文件解析器。示例,依旧解析课程URL。原创 2023-07-19 17:32:20 · 3088 阅读 · 0 评论 -
网络爬虫——CSS选择器和XPath语法
CSS(Cascading Style Sheets),即层叠样式表,主要用于 HTML 文档的样式化与 布局,具体涉及字体、颜色、编辑和高级定位等。CSS Selector,即 CSS 选择器,是用于 匹配元素(Elements)的一种模式。在网络爬虫中,常使用 CSS 选择器,定位 HTML 文 档中的元素,进而抽取 HTML 文档中的相应字段。在网络爬虫中,常用 Xpath 语法定位所要解析的内容。Xpath 语法使用路径表达 式来选取 HTML 或 XML 文档中的节点或节点集合。原创 2023-07-19 13:27:10 · 1242 阅读 · 0 评论 -
网络爬虫——URLConnection和HttpURLConnection
URLConnection 是 java.net 包中的一个抽象类,其主要用于实现应用程序与 URL 之间的通信。HttpURLConnection 继承自 URLConnection,也是抽象类。在网络爬虫 中,可以使用 URLConnection 或 HttpURLConnection 请求 URL 获取流数据,通过对 流数据的操作,获取具体的实体内容。原创 2023-07-18 00:48:59 · 1046 阅读 · 0 评论 -
网络爬虫——Jsoup的使用
Jsoup 是一款基于 Java 语言的开源项目,主要用于请求 URL 获取网页内容、解析 HTML 和 XML 文档。使用 Jsoup 可以非常轻松地构建一些轻量级网络爬虫。原创 2023-07-17 16:58:52 · 5744 阅读 · 0 评论 -
网络爬虫——HttpClient的使用
HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、功能丰富的、 支持 HTTP 协议的客户端编程工具包。相比于 java.net 包中提供的 URLConnection 与 HttpURLConnection,HttpClient 增加了易用性和灵活性。在 Java 网络爬虫实战中,经 常使用 HttpClient 向服务器发送请求,获取响应资源。官网提供了 HttpClient 的使 用教程。原创 2023-07-16 17:11:37 · 975 阅读 · 0 评论