Java 网页html转为word并保存为doc文件

首先导入POI的相关jar包。有关word操作的都导入(额,若是不清楚,就所有的导入也行。)

public static boolean writeWordFile() {  
        boolean w = false;  
        String path = "E:/";  
        try {  
            if (!"".equals(path)) {  
                // 检查目录是否存在  
                File fileDir = new File(path);  
                if (fileDir.exists()) {  
                    // 生成临时文件名称  
                    String fileName = "a.doc";                      
		    String content = gethtmlcode("http://homepage.yesky.com/59/2673059.shtml");
                    byte b[] = content.getBytes();  
                    ByteArrayInputStream bais = new ByteArrayInputStream(b);  
                    POIFSFileSystem poifs = new POIFSFileSystem();  
                    DirectoryEntry directory = poifs.getRoot();  
                    DocumentEntry documentEntry = directory.createDocument("WordDocument", bais);  
                    FileOutputStream ostream = new FileOutputStream(path+ fileName);  
                    poifs.writeFilesystem(ostream);  
                    bais.close();  
                    ostream.close();  
                }  
            }  
        } catch (IOException e) {  
            e.printStackTrace();  
      }  
      return w;  
    }  
 

通过url:http://homepage.yesky.com/59/2673059.shtml获取这个页面的html代码内容。后面的是进行写如word文件操作

gethtmlcode 方法的代码如下:

public static String gethtmlcode(String url){
		String str = "";
		try {
			URL u = new URL(url);
			URLConnection uc = u.openConnection();
			InputStream raw = uc.getInputStream();
			InputStream buffer = new BufferedInputStream(raw);
			//
			Reader r = new InputStreamReader(buffer);
			int c;

			while ((c = r.read()) != -1) {
				str += (char)c;
				//System.out.print((char)c);
			} // end while
		}// end try
			// catch (MalformedURLConnection e){
			// System.err.println("cannot connect");
			// }
		catch (IOException e) {
			System.err.println(e);
		}// end catch

		//System.out.print(str);
		return str;
	}

这样就完成了需要的html页面向word的转化。效果图

虽然和原界面有些不一样(主要是图片等的问题。若是一个简单的页面的话足够用了)。但是可以根据这个思路修改下去

 

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
可以使用Apache POI和Jsoup这两个Java库来将HTML转换为Word文档。 首先,需要使用Jsoup将HTML解析为DOM对象。然后,使用Apache POI创建一个新的Word文档,并向其中添加文本、图像和格式化内容。 下面是一个简单的示例代码: ```java import org.apache.poi.xwpf.usermodel.*; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.*; public class HtmlToWord { public static void convertHtmlToWord(String inputHtmlPath, String outputWordPath) throws IOException { // 使用Jsoup解析HTML File inputHtmlFile = new File(inputHtmlPath); Document doc = Jsoup.parse(inputHtmlFile, "UTF-8"); // 创建Word文档 XWPFDocument docx = new XWPFDocument(); // 添加内容 Elements elements = doc.body().children(); for (Element element : elements) { if (element.tagName().equals("p")) { String text = element.text(); XWPFParagraph paragraph = docx.createParagraph(); XWPFRun run = paragraph.createRun(); run.setText(text); } else if (element.tagName().equals("img")) { String src = element.attr("src"); InputStream imageStream = new FileInputStream(new File(src)); XWPFParagraph paragraph = docx.createParagraph(); XWPFRun run = paragraph.createRun(); run.addPicture(imageStream, XWPFDocument.PICTURE_TYPE_JPEG, src, Units.toEMU(200), Units.toEMU(200)); } } // 保存Word文档 File outputWordFile = new File(outputWordPath); OutputStream outputStream = new FileOutputStream(outputWordFile); docx.write(outputStream); outputStream.close(); } public static void main(String[] args) throws IOException { convertHtmlToWord("input.html", "output.docx"); } } ``` 此代码将从名为`input.html`的文件中读取HTML,并将其转换为名为`output.docx`的Word文档。它可以处理`<p>`和`<img>`标记,并将文本和图像添加到Word文档中。您可以根据需要添加其他标记。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值