java 实现word 转PDF (采用第三方技术 IText、Poi、Jsoup)

  先讲讲思路:

             第一步:使用 poi 将word转换成 html,这里代码一搜一堆没什么好说的,千篇一律。

                        (值得注意的地方是IText 根据html生成pdf文件的时候,会验证html文件是否标准,例如通过poi转换的出来的html文件的一些标签会缺少标签闭合 ” / “ :

                     举个栗子:  

<html>
             <head>
                   <META http-equiv="Content-Type" content="text/html; charset=UTF-8">

                  <img src="test/0.jpg" style="width:5.765972in;height:8.647917in;vertical-align:text-bottom;">     

                               这是我直接用pio生成的html中的一部分, META、img 标签明显就没有对应闭合标签。如果用这种html进行转换是没有办法通过itext 的校验的。会出现以下异常 

错误:        “The element type "meta" must be terminated by the matching end-tag "</meta>".”
org.xhtmlrenderer.util.XRRuntimeException: Can't load the XML resource (using TRaX transformer). org.xml.sax.SAXParseException: The element type "meta" must be terminated by the matching end-tag "</meta>".  。

               从错误分析也知道是我们的html不规范拉,我们采用第三方 jar 包Jsoup,  直接调用 parse方法 我们的html就标准啦!


因为遇到这个问题让我头疼了半天,没想到就这么轻松的解决了,发个博文支援一下遇到该问题的小伙伴们 !

下面是pio转换html 的代码:


         

  1. package com.smart.sys.core.service.io.poi;  
  2.   
  3. import org.apache.poi.hwpf.HWPFDocument;  
  4. import org.apache.poi.hwpf.converter.PicturesManager;  
  5. import org.apache.poi.hwpf.converter.WordToHtmlConverter;  
  6. import org.apache.poi.hwpf.usermodel.Picture;  
  7. import org.apache.poi.hwpf.usermodel.PictureType;  
  8. import org.jsoup.Jsoup;   
  9. import org.w3c.dom.Document;  
  10.   
  11. import javax.xml.parsers.DocumentBuilderFactory;  
  12. import javax.xml.parsers.ParserConfigurationException;  
  13. import javax.xml.transform.OutputKeys;  
  14. import javax.xml.transform.Transformer;  
  15. import javax.xml.transform.TransformerException;  
  16. import javax.xml.transform.TransformerFactory;  
  17. import javax.xml.transform.dom.DOMSource;  
  18. import javax.xml.transform.stream.StreamResult;  
  19. import java.io.*;  
  20. import java.util.List;  
  21.   
  22. /** 
  23.  * Created by Carey on 15-2-2. 
  24.  */  
  25. public class Word2Html {  
  26.   
  27.   
  28.     public static void main(String argv[]) {  
  29.         try {  
  30.             convert2Html("D:\\新建 Microsoft Word 文档.doc","D:\\1.html");  
  31.         } catch (Exception e) {  
  32.             e.printStackTrace();  
  33.         }  
  34.     }  
  35.   
  36.     //输出html文件   
  37.     public static void writeFile(String content, String path) {  
  38.         FileOutputStream fos = null;   
  1.         BufferedWriter bw = null;  
  2.         org.jsoup.nodes.Document doc = Jsoup.parse(content);  
  3.          content=doc.html();  
  4.         try {  
  5.             File file = new File(path);  
  6.             fos = new FileOutputStream(file);  
  7.             bw = new BufferedWriter(new OutputStreamWriter(fos,"UTF-8"));  
  8.             bw.write(content);  
  9.         } catch (FileNotFoundException fnfe) {  
  10.             fnfe.printStackTrace();  
  11.         } catch (IOException ioe) {  
  12.             ioe.printStackTrace();  
  13.         } finally {  
  14.             try {  
  15.                 if (bw != null)  
  16.                     bw.close();  
  17.                 if (fos != null)  
  18.                     fos.close();  
  19.             } catch (IOException ie) {  
  20.             }  
  21.         }  
  22.     }  
  23.   
  24.     //word 转 html   
  25.     public static void convert2Html(String fileName, String outPutFile)  
  26.             throws TransformerException, IOException,  
  27.             ParserConfigurationException {  
  28.   
  29.         HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//WordToHtmlUtils.loadDoc(new FileInputStream(inputFile));  
  30.          //兼容2007 以上版本  
  31. //        XSSFWorkbook  xssfwork=new XSSFWorkbook(new FileInputStream(fileName));  
  32.         WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(  
  33.                 DocumentBuilderFactory.newInstance().newDocumentBuilder()  
  34.                         .newDocument());  
  35.         wordToHtmlConverter.setPicturesManager( new PicturesManager()  
  36.         {  
  37.             public String savePicture( byte[] content,  
  38.                                        PictureType pictureType, String suggestedName,  
  39.                                        float widthInches, float heightInches )  
  40.             {  
  41.                 return "test/"+suggestedName;  
  42.             }  
  43.         } );  
  44.         wordToHtmlConverter.processDocument(wordDocument);  
  45.         //save pictures  
  46.         List pics=wordDocument.getPicturesTable().getAllPictures();  
  47.         if(pics!=null){  
  48.             for(int i=0;i<pics.size();i++){  
  49.                 Picture pic = (Picture)pics.get(i);  
  50.                 System.out.println();  
  51.                 try {  
  52.                     pic.writeImageContent(new FileOutputStream("D:/test/"  
  53.                             + pic.suggestFullFileName()));  
  54.                 } catch (FileNotFoundException e) {  
  55.                     e.printStackTrace();  
  56.                 }  
  57.             }  
  58.         }  
  59.         Document htmlDocument = wordToHtmlConverter.getDocument();  
  60.   
  61.         ByteArrayOutputStream out = new ByteArrayOutputStream();  
  62.         DOMSource domSource = new DOMSource(htmlDocument);  
  63.         StreamResult streamResult = new StreamResult(out);  
  64.   
  65.   
  66.         TransformerFactory tf = TransformerFactory.newInstance();  
  67.         Transformer serializer = tf.newTransformer();  
  68.         serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");  
  69.         serializer.setOutputProperty(OutputKeys.INDENT, "yes");  
  70.         serializer.setOutputProperty(OutputKeys.METHOD, "HTML");  
  71.         serializer.transform(domSource, streamResult);  
  72.         out.close();  
  73.         writeFile(new String(out.toByteArray()), outPutFile);  
  74.     }  
  75. }  
       


  好了第二步生成pdf ,我直接上代码了 !

 

  1. package com.smart.sys.core.service.io.itext;  
  2.   
  3. import com.lowagie.text.pdf.BaseFont;  
  4. import org.xhtmlrenderer.pdf.ITextFontResolver;  
  5. import org.xhtmlrenderer.pdf.ITextRenderer;  
  6.   
  7. import java.io.File;  
  8. import java.io.FileOutputStream;  
  9. import java.io.OutputStream;  
  10.   
  11. /** 
  12.  * Created by Carey on 15-2-2. 
  13.  */  
  14. public class Html2Pdf {  
  15.   
  16.   
  17.     public boolean convertHtmlToPdf(String inputFile, String outputFile)  
  18.             throws Exception {  
  19.   
  20.         OutputStream os = new FileOutputStream(outputFile);  
  21.         ITextRenderer renderer = new ITextRenderer();  
  22.         String url = new File(inputFile).toURI().toURL().toString();  
  23.         renderer.setDocument(url);  
  24.         // 解决中文支持问题  
  25.         ITextFontResolver fontResolver = renderer.getFontResolver();  
  26.         fontResolver.addFont("C:/Windows/Fonts/simsunb.ttf", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);  
  27.         //解决图片的相对路径问题  
  28.         renderer.getSharedContext().setBaseURL("file:/D:/test");  
  29.         renderer.layout();  
  30.         renderer.createPDF(os);  
  31.         os.flush();  
  32.         os.close();  
  33.         return true;  
  34.     }  
  35.   
  36.   
  37.      public   static  void  main(String [] args){  
  38.          Html2Pdf html2Pdf =new Html2Pdf();  
  39.          try {  
  40.              html2Pdf.convertHtmlToPdf("D:\\1.html","D:\\index.pdf");  
  41.          } catch (Exception e) {  
  42.              e.printStackTrace();  
  43.          }  
  44.      }  
  45. }  
如果报这个错误   就是iText的包   要用2.0.8版本的

Exception in thread "main" java.lang.NoSuchMethodError: com.lowagie.text.pdf.BaseFont.getCharBBox(C)[I 


所需jar包 

iText-2.0.8.jar

core-renderer.jar

iTextAsian.jar

iTextAsianCmaps.jar

jsoup-1.8.1.jar
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java7可以使用POIiText库将Word文档换为PDF格式。 首先,你需要引入POI库和iText库到你的项目中,并在代码中进行相关的调用。 使用POI库读取Word文档内容,并将其换为iText库中的Document对象。然后,使用iText库中的PdfWriter将Document对象换为PDF文件。 下面是一个简单的示例代码片段: ```java import java.io.FileInputStream; import java.io.FileOutputStream; import org.apache.poi.xwpf.usermodel.XWPFDocument; import com.itextpdf.text.Document; import com.itextpdf.text.Paragraph; import com.itextpdf.text.pdf.PdfWriter; public class WordToPDFConverter { public static void main(String[] args) { try { // 读取Word文档 XWPFDocument document = new XWPFDocument(new FileInputStream("input.docx")); // 创建PDF文档 Document pdfDoc = new Document(); PdfWriter.getInstance(pdfDoc, new FileOutputStream("output.pdf")); pdfDoc.open(); // 逐段读取Word文档内容,并添加到PDF文档中 for (XWPFParagraph paragraph : document.getParagraphs()) { String text = paragraph.getText(); pdfDoc.add(new Paragraph(text)); } // 关闭文档 pdfDoc.close(); document.close(); System.out.println("Word文档成功换为PDF文件!"); } catch (Exception e) { e.printStackTrace(); } } } ``` 上述代码中,我们使用POI库的XWPFDocument来读取Word文档,然后使用iText库的Document和PdfWriter将内容写入PDF文件。 请注意,这只是一个简单的示例代码。如果Word文档包含更复杂的格式或元素(如图片、表格等),则需要进行更详细的处理。 希望这个回答对你有帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值