Jsoup
文章平均质量分 51
茅坤宝骏氹
语言:Java、C/C++、C#、Python、Linux Shell。
框架:Spring、Spring MVC、Spring Boot、Spring Cloud、Hibernate、Mybatis、Freemarker、Velocity。
前端:HTML5、CSS3、JavaScript、Bootstrap、JQuery、Vue、React。
数据库:oracle、mysql、MongoDB、HBase。
缓存:Memcache、Redis。
消息队列:kafka。
大数据:Hadoop、Hive、Sqoop、Flume、Spark、Strom、OpenTSDB、Druid。
展开
-
Jsoup解析HTML实例及文档方法详解
转载自 Jsoup解析HTML实例及文档方法详解这篇文章主要介绍了Jsoup如何解析一个HTML文档、从文件加载文档、从URL加载Document等方法,对Jsoup常用方法做了详细讲解,最近提供了一个示例供大家参考 使用DOM方法来遍历一个文档 从元素抽取属性,文本和HTML 获取所有链接解析和遍历一个HTML文档如何解析一个HTML文档:String html = "<html>...转载 2018-07-06 23:13:04 · 607 阅读 · 0 评论 -
使用 jsoup 对 HTML 文档进行解析和操作
转载自 使用 jsoup 对 HTML 文档进行解析和操作jsoup 简介Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 ht...转载 2018-07-05 00:07:40 · 347 阅读 · 0 评论 -
Jsoup学习总结
转载自 Jsoup学习总结摘要Jsoup是一款比较好的Java版HTML解析器。可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jSOUP主要功能从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、取出数据;可操作HTML元素、属性、文本;环境搭建MAVEN依赖<depe...转载 2018-06-14 09:19:05 · 455 阅读 · 0 评论 -
Jsoup代码解读之七-实现一个CSS Selector
转载自 Jsoup代码解读之七-实现一个CSS Selector当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup!select机制Jsoup的select包里,类结构如下:在最开始介绍Jsoup的时候,就已经说过NodeVis...转载 2018-07-05 00:07:50 · 884 阅读 · 0 评论 -
Jsoup代码解读之六-parser(下)
转载自 Jsoup代码解读之六-parser(下)最近生活上有点忙,女儿老是半夜不睡,精神状态也不是很好。工作上的事情也谈不上顺心,有很多想法但是没有几个被认可,有些事情也不是说代码写得好就行的。算了,还是端正态度,毕竟资历尚浅,我还是继续我的。读Jsoup源码并非无聊,目的其实是为了将webmagic做的更好一点,毕竟parser也是爬虫的重要组成部分之一。读了代码后,收获也不少,对HTML...转载 2018-07-05 00:08:00 · 305 阅读 · 0 评论 -
Jsoup代码解读之五-parser(中)
转载自 Jsoup代码解读之五-parser(中)上一篇文章讲到了状态机和词法分析的基本知识,这一节我们来分析Jsoup是如何进行词法分析的。代码结构先介绍以下parser包里的主要类:ParserJsoup parser的入口facade,封装了常用的parse静态方法。可以设置maxErrors,用于收集错误记录,默认是0,即不收集。与之相关的类有ParseError,ParseErro...转载 2018-07-05 00:08:21 · 395 阅读 · 0 评论 -
Jsoup代码解读之四-parser(上)
转载自 Jsoup代码解读之四-parser(上)作为Java世界最好的HTML 解析库,Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分,需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂,解析只是到DOM树为止,所以作为编译器入门倒是挺合适的。这一块不要指望囫囵吞枣,我们还是泡一杯咖啡,细细品味其中的奥妙吧。基础知识编译器将计算机语言转化为另一种计算...转载 2018-07-05 00:08:31 · 457 阅读 · 0 评论 -
Jsoup代码解读之三-Document的输出
转载自 Jsoup代码解读之三-Document的输出Jsoup官方说明里,一个重要的功能就是***output tidy HTML***。这里我们看看Jsoup是如何输出HTML的。HTML相关知识分析代码前,我们不妨先想想,"tidy HTML"到底包括哪些东西:换行,块级标签习惯上都会独占一行缩进,根据HTML标签嵌套层数,行首缩进会不同严格的标签闭合,如果是可以自闭合的标签并且没有内容...转载 2018-07-05 00:08:39 · 1614 阅读 · 0 评论 -
Jsoup代码解读之二-DOM相关对象
转载自 Jsoup代码解读之二-DOM相关对象之前在文章中说到,Jsoup使用了一套自己的DOM对象体系,和Java XML API互不兼容。这样做的好处是从XML的API里解脱出来,使得代码精炼了很多。这篇文章会说明Jsoup的DOM结构,DOM的遍历方式。在下一篇文章,我会并结合这两个基础,分析一下Jsoup的HTML输出功能。DOM结构相关类我们先来看看nodes包的类图:这里可以看到,核...转载 2018-07-06 23:12:27 · 213 阅读 · 0 评论 -
Jsoup代码解读之一-概述
转载自 Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了webmagic里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学学好东西吧!Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤,本身还附带了一个Http下载器。从...转载 2018-07-06 23:12:39 · 343 阅读 · 0 评论 -
jsoup解析HTML用法小结
转载自 jsoup解析HTML用法小结使用HttpClient+jsoup做采集器有一段时间了,发现jsoup很好用,而且还有很多方便的东西都没怎么用上。于是想根据官网上的cookbook来对jsoup的使用做个小结,或者是归纳。按功能分类做个列表,方便在写程序的时候快速翻阅。1、jsoup的HTML文档(Document)对象模型Document对象由Element和TextNode对象组成...转载 2018-06-14 09:19:30 · 235 阅读 · 0 评论 -
jsoup怎么获取两个标签之间的text?
转载自 jsoup怎么获取两个标签之间的text?这是开发者工具解析到的一个论坛页面结构。。可以看到每一个a标签和br标签之间总会夹着一个text,,也就是密码文本。而我根据网上的API教程:siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:h1 ~ p写成这样Elements links_1 = tdsm.select("#postmessage_24532691...转载 2018-07-05 00:07:29 · 6712 阅读 · 0 评论