- 博客(1)
- 资源 (6)
- 收藏
- 关注
转载 JTidy 抽取网页内容
Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。 通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内
2012-05-07 12:17:12 783
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人