使用poi 处理html 转成docx格式数据

转换工具类:


import lombok.extern.slf4j.Slf4j;
import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.util.IOUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.util.ObjectUtils;

import java.io.ByteArrayInputStream;
import java.io.FileOutputStream;
import java.io.OutputStream;

@Slf4j
public class Html2WordUtil {
    public static boolean html2docxFile(String html, String fileName) {
        FileOutputStream ostream = null;
        try {
            ostream = new FileOutputStream(fileName);
        }catch (Exception e){
            log.warn("error fileName:{}",fileName, e);
            return false;
        }
        return html2docxOutputStream(html, ostream);
    }

    public static String replaceImgToBase64(String html) {
        Document doc = Jsoup.parse(html);
        Elements elements = doc.getElementsByTag("img");
        for (Element element : elements) {
            String src = element.attr("src");
            if (ObjectUtils.isEmpty(src)) {
                continue;
            }

            if (!src.startsWith("http")) {
                continue;
            }

            String data = ImgUtil.tryTransImgToBase64WithDataPrefix(src);
            if (ObjectUtils.isEmpty(data)) {
                continue;
            }

            element.attr("src",  data);
        }

        return doc.html();
    }

    public static boolean html2docxOutputStream(String html, OutputStream ostream) {

        html = replaceImgToBase64(html);

        boolean ret = true;
        ByteArrayInputStream bais = null;
        try {

            if (!html.contains("<body>")) {
                html = "<body>" + html + "</body>";
            }
            if (!html.contains("<html>")) {
                html = "<html>" + html + "</html>";
            }

            byte[] b = html.getBytes();
            bais = new ByteArrayInputStream(b);
            POIFSFileSystem poifs = new POIFSFileSystem();
            DirectoryEntry directory = poifs.getRoot();
            //WordDocument名称不允许修改
            directory.createDocument("WordDocument", bais);

            poifs.writeFilesystem(ostream);
        } catch (Exception e) {
            log.error("exception is {}", e);
            ret = false;
        } finally {
            IOUtils.closeQuietly(bais);
        }
        return ret;
    }

}

图片这里处理成内嵌图片:


import lombok.extern.slf4j.Slf4j;
import org.springframework.util.ObjectUtils;

import java.io.ByteArrayOutputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.Base64;

@Slf4j
public class ImgUtil {

    public enum TypeImg {
        TYPE_JPG("jpeg", "FFD8FF"),
        TYPE_GIF("gif", "47494638"),
        TYPE_PNG("png", "89504E47"),
        TYPE_BMP("bmp", "424D"),
        TYPE_WEBP("webp", "52494646"),
        TYPE_TIF("tif", "49492A00"),
        ;

        final String code;
        final String fileHeader;

        TypeImg(String code, String fileHeader) {
            this.code = code;
            this.fileHeader = fileHeader;
        }

        public static TypeImg getByFileHeader(String fileHeader) {
            if (fileHeader == null) {
                return null;
            }
            for (TypeImg typeImg : TypeImg.values()) {
                if (typeImg.fileHeader.equalsIgnoreCase(fileHeader)) {
                    return typeImg;
                }
            }
            return null;
        }
    }

    /**
     * 将网络链接图片或者本地图片文件转换成Base64编码字符串
     *
     * @param imgSrc 网络图片Url/本地图片目录路径
     * @return
     */
    public static String tryTransImgToBase64WithDataPrefix(String imgSrc) {

        String imgType = ImgUtil.TypeImg.TYPE_JPG.code;


        Result result = getResult(imgSrc, imgType);
        if (!result.success){
            return imgSrc;
        }
        log.info("imageType:{}, src:{}", result.imgType, imgSrc );
        // 对字节数组Base64编码
        return "data:image/"+ result.imgType +";base64,"+ Base64.getEncoder().encodeToString(result.buffer);
    }

    static Result getResult(String imgStr, String imgType) {
        InputStream inputStream = null;
        ByteArrayOutputStream outputStream = null;

        byte[] bufferRead = null;

        boolean success = true;
        for(int i=0;i< 5;i++){
            try {
                //判断网络链接图片文件/本地目录图片文件
                if (imgStr.startsWith("http://") || imgStr.startsWith("https://")) {
                    // 创建URL
                    URL url = new URL(imgStr);
                    // 创建链接
                    HttpURLConnection conn = (HttpURLConnection) url.openConnection();
                    conn.setRequestProperty("Referer","https://towebp.io");
                    conn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0");
                    conn.setRequestMethod("GET");
                    conn.setConnectTimeout(5000);

                    inputStream = conn.getInputStream();
                    outputStream = new ByteArrayOutputStream();
                    // 将内容读取内存中
                    byte[] buffer = new byte[1024];
                    int len = -1;
                    boolean first = true;

                    while ((len = inputStream.read(buffer)) != -1) {
                        if(first){
                            first = false;
                            imgType = ImgUtil.getPicType(buffer);
                        }
                        outputStream.write(buffer, 0, len);
                    }
                    bufferRead = outputStream.toByteArray();
                } else {
                    inputStream = new FileInputStream(imgStr);
                    int count = 0;
                    while (count == 0) {
                        count = inputStream.available();
                    }
                    bufferRead = new byte[count];
                    imgType = ImgUtil.getPicType(bufferRead);
                    inputStream.read(bufferRead);
                }
            } catch (Exception e) {
                log.warn("{}",e);
                success = false;
            } finally {
                if (inputStream != null) {
                    try {
                        // 关闭inputStream流
                        inputStream.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
                if (outputStream != null) {
                    try {
                        // 关闭outputStream流
                        outputStream.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
            if(success){
                break;
            }
        }

        if (bufferRead == null){
            success = false;
        }
        return new Result(imgType, bufferRead, success);
    }

    static class Result {
        public final String imgType;
        public final byte[] buffer;

        private final boolean success;

        public Result(String imgType, byte[] buffer,boolean success) {
            this.imgType = imgType;
            this.buffer = buffer;
            this.success = success;
        }
    }

    /**
     * byte数组转换成16进制字符串*
     *
     * @param src
     * @return
     */
    public static String bytesToHexString(byte[] src) {
        StringBuilder stringBuilder = new StringBuilder();
        if (src == null || src.length <= 0) {
            return null;
        }
        for (int i = 0; i < src.length; i++) {
            int v = src[i] & 0xFF;
            String hv = Integer.toHexString(v);
            if (hv.length() < 2) {
                stringBuilder.append(0);
            }
            stringBuilder.append(hv);
        }
        return stringBuilder.toString();
    }

    /**
     * 判断图片类型
     *
     * @param bytes
     * @return
     */
    public static String getPicType(byte[] bytes) {
        if (ObjectUtils.isEmpty(bytes) || bytes.length < 4) {
            return TypeImg.TYPE_JPG.code;
        }
        //读取文件的前几个字节来判断图片格式
        byte[] b = new byte[]{bytes[0], bytes[1], bytes[2], bytes[3]};

        String type = bytesToHexString(b).toUpperCase();
        log.info("type:{}", type);
        TypeImg typeImg = TypeImg.getByFileHeader(type);
        if (typeImg == null) {
            return TypeImg.TYPE_JPG.code;
        }
        return typeImg.code;
    }
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
POI(Poor Obfuscation Implementation)是一个Java库,可以用来处理Microsoft Office格式的文件,包括.doc和.docx。要将这些文件换为HTML格式,可以使用POI库的一些功能。 首先,需要引入POI库的相关依赖。然后,使用POI的XWPFDocument类来读取.docx文件,或者使用HSSFWorkbook类来读取.doc文件。它们都提供了访问文件的内容和结构的方法。 读取文件后,可以遍历其中的段落、文本和样式等元素,并将其换为HTML格式。可以使用StringBuilder来拼接HTML文本。例如,可以将每个段落换为一个\<p>标签,每个文本换为一个\<span>标签,并根据样式设置相关属性,如字体、颜色等。 对于嵌入的表格、图片和其他对象,可以使用POI的一些工具类来提取它们的内容,并根据需要换为HTML格式。例如,可以使用XWPFTables获取表格的数据,并将其换为\<table>标签。对于图片,可以使用XWPFPictureData获取图片的二进制数据,并使用Base64编码将其嵌入到HTML中。 最后,将换后的HTML文本保存到文件中或传输到Web页面中即可。 需要注意的是,POI库只提供了对Microsoft Office格式文件的处理功能,不保证100%的换准确性。在使用过程中,可能需要根据具体情况进行一些调整和优化。另外,由于POI是一个开源项目,可以通过查阅官方文档和社区提供的资料来获得更多帮助和支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值