HTML 网页解析技术的一些资料

最新推荐文章于 2023-02-21 20:43:25 发布

runi

最新推荐文章于 2023-02-21 20:43:25 发布

阅读量1.9k

点赞数

分类专栏： Java 文章标签： html xhtml manager java 存储

Java 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

现在做 Code Manager .SWT 的过程中不可避免的遇到了需要抓存网页以及网页内嵌的一些资源的问题.

现在 MHT 生成已经不成问题, 但是如何探测源文件编码以及把 MHT 解压缩(导出)为可以浏览的 HTML 文件(含图片等)是个大问题, 以及用户可视化编辑页面后重新保存为 MHT 的问题. Java 的 MHT 处理技术目前是有一家美国公司在卖, 还好我也实现了, 正在考虑完善后和他们竞争.

探测编码可以用:

1) 检测 HTTP 头的 Content Type 中的编码;

2) 检测正文中的 Content Type 中的编码.

解析 HTML 可以用两种方案:

1) 转换成 XHTML, 然后用 JDOM 转换成 DOM 树, 这种解析方式比较传统, 但是容错性上还没有做过检测, 这种方式的优点就是用 DOM 的方式便于成块的处理 HTML 以及存储.JSPWiki.org 的 HTML 转 Wiki 标签即用的此项技术.

2) 用 http://htmlparser.sourceforge.net/ 的开源纯 Java HTML Parser 来分析, 但是反向存储(由修改后的模型再写回HTML)还没有研究如何使用.

一些资料: http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html

http://scud.blog.javascud.org/post/192.htm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTML 网页解析技术的一些资料

现在做 Code Manager .SWT 的过程中不可避免的遇到了需要抓存网页以及网页内嵌的一些资源的问题.现在MHT 生成已经不成问题, 但是如何探测源文件编码以及把 MHT 解压缩(导出)为可以浏览的 HTML 文件(含图片等)是个大问题,以及用户可视化编辑页面后重新保存为 MHT 的问题. Java 的 MHT 处理技术目前是有一家美国公司在卖, 还好我也实现了,正在考虑完
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。