Html文档解析器(转载)

  • Html文档解析器 HTMLParser

    HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。 示例代码: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt (0); NodeList sublist...
  • Html文档解析器 NekoHTML

    NekoHTML 是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。 NekoHTML能增补缺失的父元素、自动用结束...
  • Html文档解析器 JTidy

    JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。...
  • Html文档解析器 HtmlCleaner

    HtmlCleaner 是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。...
  • HTML 解析和生成器 Cobra

    Cobra 是一个纯 Java 的HTML 解析和生成器,支持 HTML 4 、JavaScript、CSS 2 示例代码: import org.lobobrowser.html.parser.*;import org.lobobrowser.html.test.*;import org.lobobrowser.html.gui.*;import org.lobobrowser.html.*;import org.w3c.dom.*;...HtmlPanel pa...
  • HTML 解析器 Jericho

    Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。 示例代码: import net.htmlparser.jericho.*;import java.util.*;import java.io.*;import java.net.*;publ...
  • HTML解析库 html5lib

    html5lib 是一个 Ruby 和 Python 用来解析 HTML 文档的类库,支持HTML 5 以及最大程度兼容桌面浏览器。 主要特性包括: Parses valid and invalid HTML documents to a tree Support for minidom, ElementTree (including cElementTree and lxml.etree), BeautifulSoup and ...
  • Nokogiri

    Aaron Patterson和Mike Dalessio开发了一个新的Ruby解析HTML/XML的ruby库 - Nokogiri。他的速度比目前应用的最广泛的Hpricot还要快许多。经过Benchmark测试表明,Nokogiri在加载XML文档的速度是 Hpricot的7倍,在XPATH搜索的速度是Hpricot的5倍,而在CSS选择器的搜索上面是Hpr...
  • PHP操作HTML/XML的类库 QueryPath

    毫 无疑问,HTML、HTTP 和 XML 是支撑 Web 技术的三种最重要的技术。对于 PHP 开发人员而言,使用这些技术可能比较麻烦。但是,新的 QueryPath 库,即 jQuery JavaScript 库面向 PHP 的一个版本,为使用 XML、HTML 和 HTTP 提供了一个方便的 API。从 Web 页面到 Web 服务、从 ...
  • HTML解析器 TagSoup

    TagSoup 是一个Java开发符合SAX的HTML解析器
  • HTML 解析类库 MozillaParser

    MozillaParser 是一个 Java 的HTML 解析类库,基于 mozilla 的html 解析器,提供了Java类到 Mozilla类的一个桥接,输入一个HTML文本,输出一个 Java 的 Document 对象。
  • HTML解析器 HotSax

    HotSAX是一个快速,小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于ApacheXerces分析器。
  • Dev-PHP IDE

    Dev-PHP2,一个针对PHP开发,免费开源的软件。 主要特点包括: 1.支持多语言界面;2.嵌入PHP手册。在选项中设置好你的中文手册后,可以直接在软件中查看;3.支持UTF-8。可选择是否添加BOM;4.支持 Snippets。(这个功能似乎有点问题,我添加的好像不能保存。)5.支持PHP解析和D...
  • Zend Framework

    Zend Framework (ZF) 是用 PHP 5 来开发 web 程序和服务的开源框架。ZF 用 100% 面向对象编码实现。 ZF 的组件结构独一无二,每个组件几乎不依靠其他组件。这样的松耦合结构可以让开发者独立使用组件。 我们常称此为 “use-at-will”设计。 虽然它们...
  • CommonTemplate

    一、 什么是CommonTemplate? CommonTemplate是一个开源的模板引擎,用于编译运行CTL模板语言,并且模板可以在Java,.Net,JS等中通用; 其主要目标是作为JSP,ASP.Net等页面技术的另一种选择方案,以保证用简单的语法,良好的结构,不混杂业务逻辑的方式书写页面; 适合于充当M...
  • JavaScript的GUI框架 Echo

    Echo(http://nextapp.com/)是一个开源的完全基于 Ajax 技术的开发框架,用它做出的系统是一个单页面系统,所有的界面更新都是通过不停的更新 DOM 来实现;而且系统只有一个 URL,所以用户很难通过 URL 来非法进入系统内部。 它通过一个强大的基于 Ajax 的展现(rendering)引...
  • Linux下的CHM 阅读器 KchmViewer

    KchmViewer: Linux下 CHM 阅读器。这个在去年 12 月 2 日发布的 4.0 版本,实在是一个巨大的进步。它不仅是 KchmViewer 向 KDE 4 移植后的第一个正式发布的版本,而且是几乎没法挑毛病的版本。它最大的特性是在解析二进制的内容及索引时,速度比以前快了五倍。对于某些复杂的内...
  • 博客系统 Pivot Blog

    Pivot 是一个开源PHP文本型Blog程序,有以下优点 1. 不需要MySQL数据库 2.代码写得比较好,Blog应有的功能都有 3. 生成HTML(其实是缓存解析) 4.速度很快 5.支持Rewrite,和WordPress差不多 6. 有中文包 7. 程序结构很不错 来个Pivot后台图片 ...
  • HTTP 代理服务器 Ziproxy

    Ziproxy是转发,非缓存,压缩HTTP代理服务器。. Ziproxy 可以压缩图像转换到低质量JPEG文件或JPEG 2000和压缩( gzip或) HTML和其他文字样的数据。同时它还提供 HTML/CSS/JS 的优化,主动的主机名称解析,透明代理等。 Ziproxy 适合在以下情况下使用: ISPs 提供拨号服务 IS...
  • 内容抽取工具集合 Tika

    Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。在当前的0.2- SNAPSHOT版本中, Tika提供了对如下文件格式的支持: PDF - ...
  • Arachnid

    Arachnid 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何...
  • Mako

    Mako 模板是从文本流中进行解析的,流中可以包含任意内容: XML, HTML, email 文本,等等。模板中可以包含 Mako 特定的指令(directives),可用于表示变量或表达式替换,控制结构(如条件和循环),服务器端注释,整段的 Python 代码,以及各种用于提供附加功能的标签(tags)。所有...
  • HTML工具 BlueCloth

    BlueCloth是一个Markdown的Ruby实现,一个提供给网页文字撰写者将文本转成 HTML的工具。Markdown令你可以写出容易阅读、容易撰写的文本格式,然后将它转换成结构化的XHTML(或者HTML)。 和其它轻量标记语言一样,Markdown并不能也不旨在替代HTML;因为所有的网页最终都要交给浏...
  • HTML工具 Maruku

    Maruku是一个Markdown的Ruby解释器。它同时还实现了PHP Markdown extra的语法。 Maruku和BlueCloth的实现方式不一样。Maruku是在内存创建Markdown文档对象,而BlueCloth是用string的 gsub来进行转换。因此BlueCloth解释小文本的时候比较快,但是Maruku解释大文本的时候会比Blu...

原文地址:http://hi.baidu.com/zhanghaooy/blog/item/ccd52f1104a079cfa7ef3f05.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值