java html字符串转dom,在Java中,将html字符串转换为 org.w3c. dom.Document_java_开发99编程知识库...

从HTML字符串转换为org.w3c.dom.Document

我在用jtidy-r938.jar

这是我的代码:public static Document getDoc(String html) {

Tidy tidy = new Tidy();

tidy.setInputEncoding("UTF-8");

tidy.setOutputEncoding("UTF-8");

tidy.setWraplen(Integer.MAX_VALUE);

//tidy.setPrintBodyOnly(true);

tidy.setXmlOut(false);

tidy.setShowErrors(0);

tidy.setShowWarnings(false);

//tidy.setForceOutput(true);

tidy.setQuiet(true);

Writer out = new StringWriter();

PrintWriter dummyOut = new PrintWriter(out);

tidy.setErrout(dummyOut);

tidy.setSmartIndent(true);

ByteArrayInputStream inputStream = new ByteArrayInputStream(html.getBytes());

Document doc = tidy.parseDOM(inputStream, null);

return doc;

}

但有些时候图书馆工作不正常,有些标签丢失了。

请告诉一个好的开放库来完成这个任务。

非常 感谢您 !

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 将 `org.w3c.dom.Document` 转换成 `InputStream` 可以通过以下步骤实现: 1. 创建一个 `Transformer` 对象,用于将 `Document` 转换为 `StreamResult` 对象。 ``` TransformerFactory transformerFactory = TransformerFactory.newInstance(); Transformer transformer = transformerFactory.newTransformer(); ``` 2. 创建一个 `ByteArrayOutputStream` 对象,用于将 `StreamResult` 对象转换为字节数组。 ``` ByteArrayOutputStream outputStream = new ByteArrayOutputStream(); StreamResult result = new StreamResult(outputStream); ``` 3. 将 `Document` 转换为 `StreamResult` 对象。 ``` DOMSource source = new DOMSource(document); transformer.transform(source, result); ``` 4. 将字节数组转换为 `InputStream` 对象。 ``` InputStream inputStream = new ByteArrayInputStream(outputStream.toByteArray()); ``` 完整代码: ``` TransformerFactory transformerFactory = TransformerFactory.newInstance(); Transformer transformer = transformerFactory.newTransformer(); ByteArrayOutputStream outputStream = new ByteArrayOutputStream(); StreamResult result = new StreamResult(outputStream); DOMSource source = new DOMSource(document); transformer.transform(source, result); InputStream inputStream = new ByteArrayInputStream(outputStream.toByteArray()); ``` ### 回答2: 要将org.w3c.dom.Document转换为InputStream,可以使用以下步骤: 首先,将Document转换字符串。可以使用Transformer类将Document对象转换字符串。示例如下: ``` TransformerFactory transformerFactory = TransformerFactory.newInstance(); Transformer transformer = transformerFactory.newTransformer(); StringWriter writer = new StringWriter(); transformer.transform(new DOMSource(document), new StreamResult(writer)); String xmlString = writer.getBuffer().toString(); ``` 然后,将字符串转换为InputStream。可以使用ByteArrayInputStream类将字符串转换为InputStream。示例如下: ``` InputStream inputStream = new ByteArrayInputStream(xmlString.getBytes()); ``` 最后,您现在可以使用inputStream进行进一步的操作,例如将其传递给其他方法或用于输入到其他API。 请注意,上述代码片段的变量document是指org.w3c.dom.Document对象,您需要将其替换为实际的Document对象引用。另外,还需要处理Transformer类的一些异常,例如TransformerException等。该示例仅仅展示了转换的主要步骤,您可能需要根据具体的需求进行适当的错误处理和异常处理。 ### 回答3: 要将org.w3c.dom.Document转换为InputStream,可以使用Java提供的工具类将Document对象序列化为字节数组,然后再将字节数组封装为InputStream对象。 具体步骤如下: 1. 导入相关的Java类库: ```java import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.InputStream; import org.w3c.dom.Document; import javax.xml.transform.Transformer; import javax.xml.transform.TransformerConfigurationException; import javax.xml.transform.TransformerException; import javax.xml.transform.TransformerFactory; import javax.xml.transform.TransformerFactoryConfigurationError; import javax.xml.transform.dom.DOMSource; import javax.xml.transform.stream.StreamResult; ``` 2. 定义一个方法将Document对象转换为InputStream: ```java public static InputStream documentToInputStream(Document document) throws TransformerConfigurationException, TransformerException, TransformerFactoryConfigurationError, IOException { ByteArrayOutputStream outputStream = new ByteArrayOutputStream(); TransformerFactory factory = TransformerFactory.newInstance(); Transformer transformer = factory.newTransformer(); transformer.transform(new DOMSource(document), new StreamResult(outputStream)); // 将字节数组转换为InputStream InputStream inputStream = new ByteArrayInputStream(outputStream.toByteArray()); return inputStream; } ``` 3. 调用上述方法将Document对象转换为InputStream: ```java Document document = ...; // 获取到一个org.w3c.dom.Document对象 try { InputStream inputStream = documentToInputStream(document); // 可以使用inputStream进行后续操作 } catch (TransformerConfigurationException | TransformerException | TransformerFactoryConfigurationError | IOException e) { e.printStackTrace(); } ``` 以上是将org.w3c.dom.Document转换为InputStream的方法,通过将Document对象序列化为字节数组后再封装为InputStream对象,实现转换的过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值