HtmlAnalysis
文章平均质量分 91
dangelrose
爱自己的专业,爱运动,爱音乐,爱交友,爱生活。
展开
-
基于Htmlparser的天气预报程序
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html。 该程序是基于命令窗口模式,用htmlparser去抓取页面上的天气信息。 这是 网页的截图 通过观察地址栏,我们可以知道页面接收一个中文的参数,这个参数 为城市名,所以我们在程序中可以接收用户传进来的城市名来的道相对应的网页。 ...2010-04-12 15:16:28 · 79 阅读 · 0 评论 -
HTMLParser的两种使用方法
HTMLParser的两种使用方法 ...2010-04-15 16:37:41 · 227 阅读 · 0 评论 -
HtmlCleanner结合xpath用法
文章分类:Java编程 HtmlCleaner cleaner = new HtmlCleaner(); TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157...2010-04-15 13:24:29 · 86 阅读 · 0 评论 -
基于Htmlparser的天气预报程序(续)
zz:http://www.iteye.com/topic/642332 结合网上找的一个查ip的webservice得到本机所在的城市,得到当天天 气。 在试验室发现了一个小问题 就是程序在有些同学的电脑跑的动,在有些同学的电脑跑不动,后来查了资料是jaxb-api.jar的问题,jdk提供 的是2.0的所以起冲突了,说你下一个新的放在lib目录下就解决问题了。 ...2010-04-14 13:53:22 · 67 阅读 · 0 评论 -
httpclient(校内网)
Java code <!-- Code highlighting produced by Actipro CodeHighlighter (freeware) http://www.CodeHighlighter.com/ --> package com.lihan.dao; import java.io.Buffer...2010-04-13 15:10:10 · 69 阅读 · 0 评论 -
httpclient(校内网)
httpclient(校内网),大家帮忙看看我的 httpclient怎么发不到对方站内信呢?博客倒是能发,但是就是站内这里出问题~ Java code package com.lihan.dao; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; i...2010-04-13 15:10:02 · 70 阅读 · 0 评论 -
HTTPClient模拟登陆人人网
zz: 目的: http://www.iteye.com/topic/638206 使用HTTPClient4.0.1登录到人人网,并从特定的网页抓取数 据。 总结&注意 事项: HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然, 也可以在程序中进行控制...2010-04-13 14:58:58 · 118 阅读 · 0 评论 -
HtmlCleaner API
HtmlCleaner API Create cleaner instance: Constructor or method Purpose HtmlCleaner() Create cle...2010-04-13 13:40:30 · 167 阅读 · 0 评论 -
htmlcleaner惯用法
Common usage Tipically the following steps are taken: // create an instance of HtmlCleaner HtmlCleaner cleaner = new HtmlCleaner(); // take default cleaner properties CleanerProperties pro...2010-04-13 13:39:17 · 133 阅读 · 0 评论 -
htmlcleaner惯用法
Common usage Tipically the following steps are taken: // create an instance of HtmlCleaner HtmlCleaner cleaner = new HtmlCleaner( ) ; // take default cleaner properties Clean...2010-04-13 13:39:03 · 135 阅读 · 0 评论 -
htmlcleaner 使用示例.
原文出处:http://blog.chenlb.com/2008/11/htmlcleaner-use-demo.html <!-- google_ad_section_start --> 编程的时候,有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html,经使用比较:个人 觉得 htmlcleaner 比 htmlparser ...2010-04-13 13:10:43 · 92 阅读 · 0 评论 -
http://htmlparser.com.cn/
http://htmlparser.com.cn/2010-04-12 16:20:59 · 183 阅读 · 0 评论 -
开源网络蜘蛛spider(转载)
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标. 第一个spider程序由MIT的Matthew K Gray 操刀该程序的目的是为了统计互联网中主机的数目 spider定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http协议检索w...2010-04-12 15:42:54 · 150 阅读 · 0 评论 -
基于Spindle的增强HTTP Spider
zz:http://www.iteye.com/news/1731 构建于lucene之上的可用的Java开源Spider少之又 少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我 (kaninebruno@hotm...2010-04-12 15:33:35 · 160 阅读 · 0 评论 -
Cobra: Java HTML 解析器
Cobra 简介: Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有: 实现了W3C HTML DOM Level 2接口。 能够解析某些浏览器所识别的 "street HTML"。 能够在headless模式中被使用。 当...2010-04-12 15:32:56 · 377 阅读 · 0 评论 -
用htmlparser分析并抽取正文
我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西 就会惨不忍睹.根本就没有使用价值 在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析 首先配置摸版是不太现实的,因为我在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版.所以这个行不通...2010-04-12 15:26:39 · 77 阅读 · 0 评论 -
HtmlParser初步研究
目的是快速入手,而不是深入研究,做了一下整理,和大家共同讨论一下。 一,数据组织分析: HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略 了。 Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了 获取父、子...2010-04-12 15:18:09 · 76 阅读 · 0 评论 -
htmlunit 示例
先下载依赖的相关JAR包:http://sourceforge.net/projects/htmlunit/files/ 示例1:获取javaeye网站的title <!-- <br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> ...原创 2010-08-20 18:40:58 · 95 阅读 · 0 评论