解决itextpdf下,html转pdf后,首字符为标点符号问题

问题描述

  • 通过富文本框取到的HTML转成PDF后,PDF出现行首存在标点符号的情况。(存在Html标签属性失效的问题。)
  • 正常情况下,PDF文本内容,行首不能有标点符号
  • 网上找了很多答案,但是局限于各种版本,发现使用起来都是各种报错,以下为测试通过的可用版本。

itextpdf版本

  • 5.5.11

解决办法

写一个类继承SplitCharacter

package com.itextpdf.text;

import com.itextpdf.text.pdf.PdfChunk;
/**
 * <T>User:TODO</T>
 * <T>Description:中文字符编码</T>
 * <T>Create time:2020/7/23 3:41</T>
 * <T>Company: dolph</T>
 * <T>Update record(who,time,message):</T>
 */
public class ChineseSplitCharater implements SplitCharacter {
    /**
     * An instance of the default SplitCharacter.
     */
    public static final SplitCharacter DEFAULT = new ChineseSplitCharater();

    // line of text cannot start or end with this character
    static final char u2060 = '\u2060'; // - ZERO WIDTH NO BREAK SPACE

    // a line of text cannot start with any following characters in
    // NOT_BEGIN_CHARACTERS[]
    static final char u30fb = '\u30fb'; // ・ - KATAKANA MIDDLE DOT
    static final char u2022 = '\u2022'; // • - BLACK SMALL CIRCLE (BULLET)
    static final char uff65 = '\uff65'; // ・ - HALFWIDTH KATAKANA MIDDLE DOT
    static final char u300d = '\u300d'; // 」 - RIGHT CORNER BRACKET
    static final char uff09 = '\uff09'; // ) - FULLWIDTH RIGHT PARENTHESIS
    static final char u0021 = '\u0021'; // ! - EXCLAMATION MARK
    static final char u0025 = '\u0025'; // % - PERCENT SIGN
    static final char u0029 = '\u0029'; // ) - RIGHT PARENTHESIS
    static final char u002c = '\u002c'; // , - COMMA
    static final char u002e = '\u002e'; // . - FULL STOP
    static final char u003f = '\u003f'; // ? - QUESTION MARK
    static final char u005d = '\u005d'; // ] - RIGHT SQUARE BRACKET
    static final char u007d = '\u007d'; // } - RIGHT CURLY 
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,关于使用iText7将HTML换为PDF解决中文乱码问题,我可以给你一些思路和代码示例。 先,我们需要使用iText7的Core和pdfHTML模块,你可以在pom.xml中添加以下依赖: ```xml <dependency> <groupId>com.itextpdf</groupId> <artifactId>itext7-core</artifactId> <version>7.1.16</version> </dependency> <dependency> <groupId>com.itextpdf</groupId> <artifactId>html2pdf</artifactId> <version>3.0.2</version> </dependency> ``` 然后,我们需要使用pdfHTML模块提供的`HtmlConverter`类将HTML换为PDF。在换之前,我们需要设置一些PDF文档的属性,例如页边距和字体。 下面是一个简单的代码示例,可以将HTML字符换为PDF文件并解决中文乱码问题: ```java import com.itextpdf.html2pdf.ConverterProperties; import com.itextpdf.html2pdf.HtmlConverter; import com.itextpdf.kernel.font.PdfFontFactory; import com.itextpdf.kernel.font.PdfFont; import com.itextpdf.kernel.geom.PageSize; import com.itextpdf.kernel.pdf.PdfDocument; import com.itextpdf.kernel.pdf.PdfWriter; import java.io.ByteArrayInputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; public class HtmlToPdfConverter { public static void main(String[] args) throws IOException { // HTML字符串 String html = "<html><head><meta charset='utf-8'></head><body><p>你好,世界!</p></body></html>"; // 输出文件 File outputFile = new File("output.pdf"); FileOutputStream outputStream = new FileOutputStream(outputFile); // 创建PDF文档 PdfWriter writer = new PdfWriter(outputStream); PdfDocument pdfDocument = new PdfDocument(writer); pdfDocument.setDefaultPageSize(PageSize.A4); // 设置字体 PdfFont font = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false); ConverterProperties converterProperties = new ConverterProperties(); converterProperties.setFontProvider((familyName, encoding, size, style, color) -> font); // 将HTML换为PDF HtmlConverter.convertToPdf(new ByteArrayInputStream(html.getBytes()), pdfDocument, converterProperties); // 关闭流 outputStream.close(); } } ``` 在上面的代码中,我们使用了`PdfFontFactory`来创建指定字体的PDF字体对象。这里使用了华文宋体字体和UniGB-UCS2-H编码,你可以根据自己的需求进行调整。 另外,需要注意的是,如果你的HTML中包含中文字符,一定要在`<head>`标签中设置`<meta charset='utf-8'>`,这样就可以正确处理中文字符了。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值