HTML
文章平均质量分 63
iteye_12007
这个作者很懒,什么都没留下…
展开
-
htmlparser使用指南
转载:http://www.yeeach.com/2008/05/19/htmlparser%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97/ 需要做一个垂直搜索引擎,比较了nekohtml(http://nekohtml.sourceforge.net/)和htmlparser (http://htmlparser.sourceforge.net/)的功能,尽...原创 2010-11-29 19:41:21 · 97 阅读 · 0 评论 -
HTML解析器软件
HTML解析器软件 HTML文档解析器 HTMLParserHTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。示例代码: Parser parser = new Parser ("http://wha...原创 2011-01-07 14:38:01 · 362 阅读 · 0 评论 -
将Unicode字符转换成中文
public static String ToChinese(String str) { //将Unicode字符转换为中文 Pattern p = Pattern.compile("&#([\\d]{4,5});"); Matcher m = p.matcher(str); StringBuffer b = new StringBuffer(); while ...原创 2011-01-04 16:12:15 · 345 阅读 · 0 评论 -
URL编码与中文的转换
public static String Encode(String str, String charset) { //将中文转换成URL编码 Pattern p = Pattern.compile("[\u4e00-\u9fa5]"); Matcher m = p.matcher(str); StringBuffer b = new StringBuffer(); ...原创 2011-01-04 14:56:25 · 835 阅读 · 0 评论 -
htmlparser 去除html标签体(获取body,title纯文本)
package test;import java.io.*;import org.htmlparser.Parser;import org.htmlparser.visitors.HtmlPage;class Test {public static void main(String[] argv) throws IOException, InterruptedException { ...原创 2010-12-29 20:38:18 · 450 阅读 · 0 评论 -
利用HtmlParser进行网页信息提取[原创]
1.1 概述在开发工作中,往往有些需求是需要获取某些网页中的内容。针对这一问题,目前可以采用先获取网页内容,然后对网页内容进行解析,并重新排版的方式来解决。1.2 资源 1) JDK 1.5.06 2) HTMLParser2.0地址:http://sourceforge.net/project/showfiles.php?group_id=24399&pac...原创 2010-12-19 19:28:57 · 139 阅读 · 0 评论 -
htmlparser提取网页正文
Java代码 mport org.htmlparser.Parser; import org.htmlparser.beans.StringBean; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.parserapplications.Stri...原创 2010-12-19 19:02:44 · 107 阅读 · 0 评论 -
如何分析网页-----使用HtmlParser(1)
如何分析网页-----使用HtmlParser(1) HTML Parser 简述:这是一个在 SourceForge.net 上比较活跃的项目之一,目前的最新版本是 1.6 发行版, (我现在用在 自己NBA网站上 的也是1.6).他是一个对现有的 HTML 进行分析的快速实时的解析器,事实上在应用过程中你更为惊叹于 HTML Parser 给你带来一些周到的处理。他...原创 2010-12-19 13:42:01 · 111 阅读 · 0 评论 -
用nekohtml来获取网页指定内容
用nekohtml来获取网页指定内容下载地址 http://sourceforge.net/projects/nekohtmlpackage test;import java.io.InputStream;import java.net.HttpURLConnection;import java.net.URL;import org.cyberneko.html.parsers.DOMPar...原创 2010-12-01 19:15:01 · 116 阅读 · 0 评论 -
nekohtml的简单使用
做了一段时间的网页解析的工作,有了些体会,写出来和大家分享。 现在流行的HTML解析工具主要有HTML Parser和nekohtml,我就不细介绍他们了,有兴趣的话可以自己google。个人比较喜欢用nekohtml+xerces,xerces实际上也是一个XML的解析包,nekohtml建筑在其之上,两者搭配后可将网页解析成一颗DOM树,这样我们对于网页的操作就转化...原创 2010-12-01 09:01:26 · 356 阅读 · 0 评论 -
Neko的简单使用
做了一段时间的网页解析的工作,有了些体会,写出来和大家分享。 现在流行的HTML解析工具主要有HTML Parser和nekohtml,我就不细介绍他们了,有兴趣的话可以自己google。个人比较喜欢用nekohtml+xerces,xerces实际上也是一个XML的解析包,nekohtml建筑在其之上,两者搭配后可将网页解析成一颗DOM树,这样我们对于网页的操作就转化为对这棵树的操作了,...原创 2010-11-29 21:42:33 · 592 阅读 · 0 评论 -
NekoHTML学习笔记
NekoHTML学习笔记文章分类:Java编程 J. Andrew Clark用Java写了一系列的工具(Java APIs),NekoHTML是其中之一。 NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中...原创 2010-11-29 21:18:06 · 94 阅读 · 0 评论 -
遍历网站的所有Url
网站的url分为很多种类:<a href="" />; <form action="" method="Get"/>;<link href=""/>;<img src=""/>;<script src=""/> ;<frame src原创 2010-11-29 19:42:21 · 2337 阅读 · 0 评论 -
修改XHTML元素
修改XHTML元素通常通过修改如下几个常用属性来实现:1.innerHTML:大部分XHTML页面元素如<div.../>,<td.../>的呈现内容由该属性控制。2.value:少量表单控件如<input.../>,<textarea.../>的呈现内容由该属性控制。3.className:修改XHTML元素的CSS样式,该属性的合法值...原创 2011-05-16 14:53:21 · 113 阅读 · 0 评论