Ttidy Html转Xml

本文介绍了如何使用Java的JTidy库将HTML页面转换为XML,提供了代码示例,并提到前端开发者的学习资源,包括一份全面的Web前端开发学习资料,涵盖了基础知识和实战项目。
摘要由CSDN通过智能技术生成

import org.w3c.tidy.Tidy;

import java.io.*;

import java.net.URL;

public class HtmlToXML {

private String url;

private String outFileName;

private String errOutFileName;

public HtmlToXML(String url, String outFileName, String errOutFileName) {

this.url = url; //目标页面地址

this.outFileName = outFileName; //输出文件的地址和名称

this.errOutFileName = errOutFileName; //输出错误文件的地址和名称

}

public void convert() {

URL u;

BufferedInputStream in;

FileOutputStream out;

Tidy tidy = new Tidy();

tidy.setXmlOut(true);

tidy.setXmlPi(true);   //添加 <?xml?> 标签 为输出的 XML 文件, 这些参数是可选的。

tidy.setXmlSpace(true);

tidy.setCharEncoding(Configuration.ISO2022); //这个很重要,如果没有它,就会出现中文乱码

/*

我看了一下源码,上面对charEncoding是这样规定的

/* character encodings */

public static final int RAW         = 0;

public static final int ASCII       = 1;

public static final int LATIN1      = 2;

public static final int UTF8        = 3;

public static final int ISO2022     = 4;

public static final int MACROMAN    = 5;

*/

try {

//错误文件的输入地址和名称

tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));

u = new URL(url);

//建立输入和输出文件

in = new BufferedInputStream(u.openStream());

out = new FileOutputStream(outFileName);

//文件转换

tidy.parse(in, out);

//资源释放

in.close();

out.close();

} catch (IOException e) {

System.out.println(this.toString() + e.toString());

}

}

public static void main(String[] args) {

/*

* Parameters are:

* URL of HTML file

* Filename of output file

* Filename of error file

*/

HtmlToXML t = new HtmlToXML(“http://www.baidu.com”, “c:/jtidy.htm”, “c:/jtidyError.htm”);

t.convert();

}

}

大概看了一下 JTidy 的 API 文档,里面还是有许多内容的,这里的这个例子只是入门,对于真正的 JTidy 使用还有许多路走,有时间大家可以看一下 JTidy 的API文档

-------------------------------------

看了一下JTidy的api文档,现在网友的一些Tidy的方法明细列出来,供参考使用,漏掉的方法可以参考API文档。

public void setIndentContent(boolean IndentContent)  是否使用缩进

public void setSmartIndent(boolean SmartIndent)  节点结束后,是否另起一行

public void setQuoteMarks(boolean QuoteMarks)  用 "替换 "

public void setQuoteNbsp(boolean QuoteNbsp)

public Document parseDOM(java.io.InputStream in,java.io.OutputStream out)  转换为DOM对象

setAltText(java.lang.String altText)

加上默认的alt属性值

setBreakBeforeBR(boolean breakBeforeBR)

在换行
之前加一空行

setCharEncoding(int charencoding)

已废弃

setConfigurationFromFile(java.lang.String filename)

从文件中读取配置信息

setConfigurationFromProps(java.util.Properties props)

从properties中读取配置信息

setErrfile(java.lang.String errfile)

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Web前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(资料价值较高,非无偿)

最后

javascript是前端必要掌握的真正算得上是编程语言的语言,学会灵活运用javascript,将对以后学习工作有非常大的帮助。掌握它最重要的首先是学习好基础知识,而后通过不断的实战来提升我们的编程技巧和逻辑思维。这一块学习是持续的,直到我们真正掌握它并且能够灵活运用它。如果最开始学习一两遍之后,发现暂时没有提升的空间,我们可以暂时放一放。继续下面的学习,javascript贯穿我们前端工作中,在之后的学习实现里也会遇到和锻炼到。真正学习起来并不难理解,关键是灵活运用。

资料领取方式:点击这里获取前端全套学习资料

css源码pdf

JavaScript知识点
script贯穿我们前端工作中,在之后的学习实现里也会遇到和锻炼到。真正学习起来并不难理解,关键是灵活运用。

资料领取方式:点击这里获取前端全套学习资料

[外链图片转存中…(img-lC7wC22z-1711724397331)]

[外链图片转存中…(img-y5xQZELs-1711724397331)]

  • 19
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值