iText C#操作PDF中文教程及实例解析

徐校长

于 2025-05-02 13:22:17 发布

阅读量1k

点赞数 11

本文链接：https://blog.csdn.net/weixin_42143092/article/details/147686373

版权

本文还有配套的精品资源，点击获取

简介：iText是一个强大的PDF处理库，最初在Java上开发，后移植到C#。本压缩包包含DLL库文件和中文教程，指导开发者在.NET环境中利用iText进行PDF文档的创建、编辑和操作。教程包括基本操作如创建文档、添加文本与图像，以及高级功能如页面布局、PDF表单处理等。通过示例代码和详细攻略，开发者能快速掌握iText的API，实现复杂的PDF操作。

1. iText PDF库基础功能介绍

在本章中，我们将探索iText PDF库的基础功能，为后面章节的深入学习打下坚实的基础。iText是一个强大的Java库，它允许开发者创建和操作PDF文件。这一章节将涵盖iText库的核心能力，包括但不限于创建、编辑、和提取PDF内容。

首先，我们将了解iText在PDF文档处理中扮演的角色，然后介绍其在创建新PDF和修改现有PDF文件时所具备的功能。我们会从iText的核心类和接口开始，例如PdfWriter、PdfReader等，这些都是实现PDF文件读写操作的关键。

此外，本章还会简要介绍iText的架构和设计原则，以及它与PDF标准的兼容性。通过对这些基础知识的理解，读者将能够掌握使用iText进行PDF操作的基本思路和方法。

// 示例代码，展示如何使用iText创建一个简单的PDF文件
Document document = new Document();
PdfWriter.getInstance(document, new FileOutputStream("example.pdf"));
document.open();
document.add(new Paragraph("Hello, iText!"));
document.close();

以上代码段展示了使用iText创建一个新的PDF文件并写入"Hello, iText!"文本的简单示例。这为读者提供了一个实际操作iText库的起点，并激发他们学习更高级功能的兴趣。

2. C#环境下iText的安装与引用DLL库

在本章中，我们将深入探讨如何在C#环境中安装和引用iText库，这将为后续章节中创建PDF文档打下坚实的基础。我们首先需要了解iText库的下载与安装过程，然后是如何将iText DLL库引用到我们的C#项目中，并进行正确的配置。

2.1 iText库的下载与安装

2.1.1 下载iText库的不同版本和组件

iText是一个功能强大的库，用于在Java和.NET平台上创建和操作PDF文档。在开始之前，我们首先需要访问iText官方网站或其GitHub页面来下载所需的库文件。iText有多个版本，其中iText 7是最新的，支持更多的PDF特性，而iText 5则是一个相对成熟的版本，其API经过长时间的验证，具有较高的稳定性。

在下载iText之前，我们需要确定我们打算使用哪个版本。下载选项通常包括多种格式，如.jar（Java）、.zip（.NET平台）、或者NuGet包。我们还需要注意下载时选择的组件，例如是否需要iText附加组件如iText RUPS（用于PDF文档结构分析的工具）。

2.1.2 安装iText库到Visual Studio项目

一旦我们下载了所需的iText库，下一步就是将其安装并添加到我们的Visual Studio项目中。在.NET环境中，通常我们通过NuGet包管理器来安装iText库。以下是在Visual Studio中安装iText DLL库的步骤：

打开Visual Studio。
选择“工具”菜单中的“NuGet包管理器”，然后点击“管理解决方案的NuGet包”。
在打开的NuGet包管理器中，选择“浏览”标签。
在搜索框中输入“iText”并查找。
选择你需要的包，例如“iText 7”或者“iTextSharp”。
点击“安装”按钮，并接受许可协议。

确保安装完成后，iText DLL库将被添加到项目的引用中，你可以直接在代码中使用它来创建PDF文档。

2.2 iText DLL的引用与配置

2.2.1 在C#项目中添加iText引用

要在C#项目中使用iText，我们首先需要在项目中添加对应的DLL引用。Visual Studio提供了简单的步骤来完成这项任务：

右键点击项目中的“引用”或“依赖项”。
点击“添加引用”。
在打开的对话框中，切换到“浏览”标签页。
浏览到你存放iText DLL文件的位置，选择对应的.dll文件。
点击“确定”添加引用。

添加引用后，iText的相关类就可以在你的项目中使用了。这包括了创建PDF文档、添加内容、管理PDF页面等所有必要的操作。

2.2.2 DLL版本的选择与错误处理

选择正确的DLL版本对于项目的成功至关重要。iText的不同版本有不同的特性，同时也有不同的命名空间。例如，iText 5使用的是iTextSharp命名空间，而iText 7则使用了更为简洁的iText命名空间。

在选择版本时，我们需要确保我们的项目目标框架与iText库兼容。此外，库之间的依赖关系也需要考虑，避免版本冲突导致的问题。

错误处理是编程中不可或缺的一部分。在使用iText库进行PDF操作时，我们也需要妥善处理可能出现的异常。这通常涉及到try-catch块，捕获并处理iTextException或其他相关异常。合理的错误处理能够帮助我们定位问题并提供有用的调试信息，使PDF处理过程更为稳定。

在下一章节中，我们将详细介绍iText的基础操作和示例代码，让我们开始创建和编辑我们自己的PDF文档。

3. iText基础操作示例代码讲解

3.1 创建和写入PDF文件

3.1.1 使用iText创建简单的PDF文档

创建一个简单的PDF文档是一个基础且常见的操作，它涉及到创建一个新的PDF文件，并在其中填充一些基本的内容。以下是使用iText库在C#中创建简单PDF文档的步骤。

using System;
using System.IO;
using iTextSharp.text;
using iTextSharp.text.pdf;

class Program
{
    static void Main(string[] args)
    {
        string filePath = "simpleDocument.pdf";
        using (FileStream fs = new FileStream(filePath, FileMode.Create))
        {
            Document document = new Document(PageSize.A4);
            PdfWriter.GetInstance(document, fs);
            document.Open();
            document.Add(new Paragraph("Hello iText!"));
            document.Close();
        }
        Console.WriteLine($"PDF created at {filePath}");
    }
}

代码逻辑解读：

引入必要的命名空间：我们使用 System.IO 来操作文件流，使用 iTextSharp.text 和 iTextSharp.text.pdf 来操作PDF文档。
创建PDF文档： Document 类的实例用于表示一个新的PDF文档。
初始化PDF写入器： PdfWriter.GetInstance 方法用于创建一个写入器实例，该实例与文档和文件流关联。
打开文档：通过调用 document.Open() 方法来打开文档准备写入内容。
添加内容：使用 Add 方法添加一个简单的段落到文档中。
关闭文档：内容添加完毕后，必须调用 document.Close() 方法来完成文档的写入。

在创建PDF文档时，选择合适的页面大小和边距是很重要的。在本示例中， PageSize.A4 表示使用A4大小的纸张。

3.1.2 向PDF添加文本、图像和链接

向PDF文档添加文本、图像和链接可以丰富文档内容，提高其可用性和交互性。以下是添加这些元素到PDF文档的步骤。

Document document = new Document(PageSize.A4, 50, 50, 50, 50);
PdfWriter.GetInstance(document, fs);
document.Open();
document.Add(new Paragraph("This is a sample text."));

Image img = Image.GetInstance("path/to/image.jpg");
document.Add(img);

PdfAction action = PdfAction.gotoLocalPage(3, true);
PdfAnnotation annotation = PdfAnnotation.CreateLink(
    document, new Rectangle(50, 750, 550, 800),
    PdfAnnotation.HIGHLIGHT_INVERT, "Visit iText website",
    action);
document.AddAnnotation(annotation);

代码逻辑解读：

添加文本：使用 Paragraph 类创建一个文本段落并添加到文档中。
添加图像：使用 Image.GetInstance 方法加载图像文件，并使用 Add 方法将其添加到文档中。注意需要指定图像路径。
创建链接：使用 PdfAction 类创建一个动作，这个动作定义了一个跳转到文档内第三页的操作。 PdfAnnotation 类用于创建一个注释，将文本与动作关联起来，然后添加到文档中。

通过这些基本操作，可以创建一个具有丰富内容的PDF文档。在添加文本、图像和链接时，需要考虑布局和用户体验，确保内容的可读性和交互性。

3.2 PDF的页面管理

3.2.1 管理PDF文档的页面布局

管理PDF文档的页面布局是设计PDF文档结构时的一个重要方面。iText库提供了强大的API来控制页面的大小、边距、背景等。以下是如何使用iText来管理PDF文档的页面布局的示例。

using iTextSharp.text.pdf;

// ...代码省略...

Document document = new Document(PageSize.A4, 50, 50, 50, 50);
PdfWriter.GetInstance(document, fs);
document.Open();

// 添加带有边框的节
Chunk sectionHeader = new Chunk("Section Header");
sectionHeader.SetUnderline(0.1f, -2f); // 设置下划线样式
document.Add(new Paragraph("This is a section header with underline.", sectionHeader));

// 创建一个表格
PdfPTable table = new PdfPTable(2); // 2列的表格
table.DefaultCell.BorderWidth = 1f;
table.AddCell(new PdfPCell(new Phrase("Header 1")));
table.AddCell(new PdfPCell(new Phrase("Header 2")));
document.Add(table);

document.Add(new Paragraph("This is the end of the page."));
document.NewPage(); // 开始新一页

document.Add(new Paragraph("This is the beginning of a new page."));
document.Close();

代码逻辑解读：

设置页面大小和边距：在创建 Document 实例时可以设置页面大小和边距。
添加带下划线的段落：通过 Chunk 和 SetUnderline 方法来创建带下划线的文本段落，并将其添加到文档中。
创建表格： PdfPTable 类用于创建表格，可以设置列数、单元格边框等属性。
添加页面内容：使用 Add 方法将文本、表格等元素添加到文档中。
开始新页：调用 NewPage 方法来开始一个新的页面。

通过上述步骤，可以灵活地管理PDF文档的页面布局和内容结构。页面布局的设计应该以清晰和逻辑性为原则，使读者能快速找到所需信息。

3.2.2 使用章节和目录组织内容

为了提高文档的可用性，合理组织章节和目录是必要的。iText提供了强大的工具来创建目录，并通过章节来组织文档内容。以下是创建目录和章节的示例。

// 创建章节标题和目录项
PdfPTable tableOfContents = new PdfPTable(2);
tableOfContents.DefaultCell.BorderWidth = 0;

// 添加目录项和对应的章节
for (int i = 1; i <= 3; i++) {
    Chunk chunk = new Chunk("Section " + i);
    chunk.SetLocalGoto("section" + i); // 设置章节跳转目标
    tableOfContents.AddCell(new PdfPCell(new Phrase(chunk)));
}

// 将目录添加到文档
document.Add(tableOfContents);

// 添加章节内容
document.Add(new Paragraph("This is the beginning of section 1.", new Anchor("section1")));
document.Add(new Paragraph("This is the content of section 1."));
// ...同理添加section 2, section 3的内容...

document.Close();

代码逻辑解读：

创建目录表格：使用 PdfPTable 创建一个两列的表格，一列用于章节标题，另一列用于目录项。
添加目录项和跳转目标：遍历章节，为每个章节创建一个 Chunk 对象，并使用 SetLocalGoto 方法设置跳转到对应的章节。
将目录添加到文档：将目录表格添加到文档的开头部分。
添加章节内容：为每个章节创建 Paragraph 并添加到文档中。 Anchor 类用于创建文档内部的跳转点。

通过章节和目录的组织，用户可以更方便地导航和阅读文档。目录的创建应确保准确性和逻辑性，使得文档结构清晰，易于理解。

4. iText高级功能和技巧中文教程

4.1 复杂PDF文档的创建和编辑

4.1.1 使用表单和字段

在构建复杂文档时，表单字段的引入是必不可少的。表单字段不仅增强了文档的交互性，也提高了数据收集的效率。iText库提供了创建表单和字段的强大API，支持静态和动态PDF表单的创建。

要开始使用表单和字段，我们首先需要定义一个 PdfStamper 实例，它是一个用于编辑已存在的PDF文件的工具，非常适合添加表单字段。下面是一个简单的例子，演示如何在PDF中添加一个文本输入框：

PdfReader reader = new PdfReader("template.pdf");
PdfStamper stamper = new PdfStamper(reader, new FileStream("output.pdf", FileMode.Create));
AcroFields form = stamper.AcroFields;

// 添加一个文本输入框
form.SetField("fieldName", "defaultValue");
// 可以设置字段属性
form.SetFieldProperty("fieldName", "textfont", new iTextSharp.text.Font(iTextSharp.text.BaseFont.HELVETICA, 12), null);
// 保存更改并关闭PDF
stamper.FormFlattening = true; // 如果需要将表单转换为静态PDF，则设置为true
stamper.Close();
reader.Close();

在此段代码中， template.pdf 是一个已经存在的PDF文件，我们将在这个模板基础上添加表单字段。 fieldName 是新添加的表单字段的名称，而 defaultValue 是该字段的初始值。通过 SetFieldProperty 方法，我们可以对表单字段的属性进行设置，例如字体样式和大小。

4.1.2 创建动态交互式PDF文档

动态交互式文档能响应用户的行为，提供更加丰富的阅读体验。iText同样支持这种类型的文档的创建。它允许我们创建各种交互式的元素，例如按钮、菜单、列表框等。

以下是一个创建按钮并为其添加动作的例子：

// 创建一个触发器，当用户点击按钮时，触发一个打开新窗口的动作
PdfAction action = PdfAction.NewJavaScript("app.alert('Hello World!');");

// 添加按钮到PDF
PdfFormField button = form.AddField("pushButton", "Push me!", PdfAnnotation.PRINT);
button.Actions.OnRelease = action;

在这段代码中，我们首先创建了一个 PdfAction 实例，用于定义当用户释放按钮时执行的动作。这里是一个弹出一个JavaScript警告框的简单动作。然后，我们使用 AddField 方法在PDF中添加了一个按钮类型的表单字段，并指定了其文本和动作。

创建动态交互式文档还可能需要对页面进行更复杂的定制。例如，我们可以使用iText的 PdfPageEventHelper 类来处理页面的前后事件，如页眉页脚的创建、水印的添加等。

4.2 PDF的高级排版技巧

4.2.1 使用模板和样式简化布局

为了简化布局并保持文档的一致性，iText提供了 PdfWriter 类中的 SetDocumentTemplate 方法。该方法可以创建一个布局模板，它允许开发者定义一个公共的页面元素，比如页眉、页脚、侧边栏等。然后可以在文档的任何页面上重复使用该模板。

以下是一个设置页面模板的例子：

// 创建一个模板页面
PdfWriter writer = PdfWriter.GetInstance(document, new FileStream("template.pdf", FileMode.Create));
PdfTemplate template = writer.DirectContent.CreateTemplate(50, 50);
writer.PageNumber = 1;
writer.PageEvent = new CustomPageTemplate(template);

在这个例子中，我们首先创建了一个50x50像素的 PdfTemplate 实例。然后，我们使用 CustomPageTemplate 类继承自 PdfPageEventHelper ，并重写了其中的方法，比如 OnOpenDocument 、 OnEndPage 等，以在这些方法中插入模板。

public class CustomPageTemplate : PdfPageEventHelper {
    PdfTemplate template;
    public CustomPageTemplate(PdfTemplate template) {
        this.template = template;
    }
    public override void OnEndPage(PdfWriter writer, Document document) {
        // 在每页结束时添加模板，此处为添加页码
        PdfContentByte canvas = writer.DirectContent;
        canvas.AddTemplate(template, 30, document.PageSize.GetHeight() - 50);
    }
}

4.2.2 制作专业外观的文档

为了提升文档的专业感，除了使用模板和样式外，我们还可以使用iText提供的 PdfPTable 和 PdfDiv 功能来精确布局文档。

使用 PdfPTable 可以创建一个表格布局，允许我们定义列宽、单元格间距等属性。而 PdfDiv 则提供了一个更为灵活的布局方式，类似于HTML中的 div 元素，可以用来创建复杂的页面布局。

// 创建一个PDF文档实例
Document document = new Document(PageSize.A4, 10, 10, 25, 25);

PdfWriter.GetInstance(document, new FileStream("output.pdf", FileMode.Create));
document.Open();

PdfDiv div = new PdfDiv();
div.SetProperty(PdfName.Width, new PdfNumber(200));
div.SetProperty(PdfName.Height, new PdfNumber(30));
div.SetProperty(PdfName.Rotate, new PdfNumber(45));
div.SetStyle("border", "1px solid black");

// 将div添加到文档中
document.Add(div);

// 关闭文档
document.Close();

在这个例子中，我们创建了一个 PdfDiv 实例，并设置了宽度、高度、旋转属性和边框样式。将这个 div 添加到 Document 中，就可以看到这些样式应用到PDF中了。

通过上述的高级排版技巧，我们可以制作出外观精美、布局合理的PDF文档，满足各种专业出版和办公自动化的需求。

5. 自动化报告生成与数据库数据转PDF

5.1 结合C#实现自动化报告

5.1.1 从数据库读取数据

在生成自动化报告之前，首先需要从数据库中读取必要的数据。这一过程涉及到连接数据库、执行查询并接收结果。通常，这可以通过ADO.NET实现，利用其提供的一系列类和对象来完成数据库操作。

步骤1：添加数据库引用

在C#项目中，需要添加对应的数据库引用，例如，如果使用的是SQL Server，则添加System.Data.SqlClient。对于其他数据库，如Oracle或MySQL，需要添加相应的库。

// 代码示例：添加对SQL Server数据库的引用
using System.Data.SqlClient;

步骤2：建立数据库连接

创建一个连接字符串并建立与数据库的连接。这一步骤需要根据所使用的数据库类型和安全要求配置连接字符串。

// 代码示例：创建与SQL Server数据库的连接
string connectionString = "Data Source=服务器地址;Initial Catalog=数据库名;Integrated Security=True";
using (SqlConnection connection = new SqlConnection(connectionString))
{
    // 开启连接
    connection.Open();
    // 执行后续操作...
}

步骤3：执行SQL查询

定义SQL查询语句，执行查询并获取数据。可以使用SqlCommand类来执行SQL命令，并使用SqlDataReader类来读取查询结果。

// 代码示例：执行SQL查询并读取数据
string query = "SELECT * FROM 表名";
SqlCommand command = new SqlCommand(query, connection);
using (SqlDataReader reader = command.ExecuteReader())
{
    while (reader.Read())
    {
        // 读取当前行的数据...
    }
}

5.1.2 利用iText生成报告

在从数据库获取数据后，接下来需要将这些数据填充到PDF模板中，生成报告。这一步骤需要使用iText库中的类和方法。

步骤1：创建PDF模板

首先需要创建一个PDF模板，该模板可以包含静态文本、图像、表格等元素。在iText中，这可以通过PdfWriter和Document类来完成。

// 代码示例：创建PDF文档和PDFWriter对象
using (FileStream fos = new FileStream("template.pdf", FileMode.Create))
using (PdfWriter writer = new PdfWriter(fos))
using (Document document = new Document(writer))
{
    // 添加页面元素到PDF文档...
}

步骤2：填充模板数据

使用从数据库中读取的数据填充模板。例如，如果模板中包含表格，则需要遍历数据集合，将数据填充到表格的各个单元格中。

// 代码示例：填充PDF模板数据
// 假设已经有一个填充数据的方法FillTableWithDatabaseData
FillTableWithDatabaseData(document, databaseData);

在实际应用中，填充数据的方法将依赖于具体的数据库结构和PDF模板设计。开发人员需要根据需求编写相应的填充逻辑。

5.2 数据库数据到PDF的转换技术

5.2.1 读取数据库并填充PDF模板

转换数据库数据到PDF的过程中，最重要的一步是高效准确地将数据填充到PDF模板中。这通常涉及循环遍历数据集合并将每条记录映射到PDF模板中相应的位置。

5.2.2 处理大数据量时的性能优化

当处理大量数据时，性能优化成为一个重要考虑点。需要采取一些策略来减少内存消耗和提高处理速度。

步骤1：内存管理

在处理大数据时，应当避免一次性加载过多的数据。合理的做法是分页读取数据，或者使用异步操作和流式处理技术。

// 代码示例：异步读取数据库数据
public async Task<IEnumerable<DataRecord>> ReadDatabaseAsync(int pageSize, int pageNumber)
{
    // 实现异步读取逻辑...
}

步骤2：PDF内容生成优化

在生成PDF内容时，可以优化生成逻辑，减少不必要的操作。例如，避免在循环中重复创建对象，使用缓冲区和缓存技术来存储临时数据。

// 代码示例：优化PDF内容生成逻辑
using (Document document = new Document())
{
    // 避免在循环中重复创建表格、图像等对象
    // 使用缓冲技术来处理一次性创建大量内容的情况
}

步骤3：硬件资源利用

在某些情况下，可以通过增加硬件资源来提高性能。例如，使用高性能的服务器来处理数据库操作和PDF生成。

通过上述方法，在生成自动化报告和转换数据库数据到PDF的过程中，可以显著提升性能和效率，确保最终用户能够获得及时且高质量的PDF报告。

6. PDF读取和解析及数据提取

6.1 PDF内容的读取方法

6.1.1 读取PDF文本和元数据

PDF文件广泛用于文档分发，但处理和读取PDF内容时常常遇到难题，尤其是非文本内容。使用iText库，我们可以轻松读取PDF文件中的文本和元数据。iTextSharp的 PdfReader 类提供了读取PDF文件的功能，包括文本内容和文档属性。下面的代码片段展示了如何读取PDF中的文本内容和元数据：

using (FileStream stream = new FileStream("sample.pdf", FileMode.Open, FileAccess.Read))
{
    using (PdfReader reader = new PdfReader(stream))
    {
        for (int page = 1; page <= reader.NumberOfPages; page++)
        {
            // 读取页面的文本内容
            string text = PdfTextExtractor.GetTextFromPage(reader, page);
            Console.WriteLine("Page " + page + ": " + text);
        }

        // 读取文档的元数据
        string title = reader.Info["Title"];
        string author = reader.Info["Author"];
        string subject = reader.Info["Subject"];
        string keywords = reader.Info["Keywords"];

        Console.WriteLine("Title: " + title);
        Console.WriteLine("Author: " + author);
        Console.WriteLine("Subject: " + subject);
        Console.WriteLine("Keywords: " + keywords);
    }
}

每个 PdfReader 对象用于读取一个PDF文件， GetTextFromPage 方法用于提取指定页面的文本。元数据读取则通过访问 reader.Info 字典实现，该字典包含了PDF文件的所有属性，如标题、作者、主题和关键词等。当处理需要从大量文档中提取信息的场景时，这种方法尤其有用。

6.1.2 使用iTextSharp解析PDF结构

解析PDF结构，需要理解PDF文档的组织方式。iTextSharp能够让我们访问PDF的各个元素，例如页面、注释、表单字段等。以下是一个使用iTextSharp来解析PDF结构的示例代码：

using (FileStream stream = new FileStream("sample.pdf", FileMode.Open, FileAccess.Read))
{
    using (PdfReader reader = new PdfReader(stream))
    {
        for (int page = 1; page <= reader.NumberOfPages; page++)
        {
            // 获取页面的大小和旋转角度
            Rectangle pageSize = reader.GetPageSize(page);
            Console.WriteLine("Page " + page + ": " + pageSize.ToString());

            // 遍历页面上的注释
            PdfAnnotation[] annotations = PdfReader.GetPageN膀tifications(reader, page);
            foreach (var annotation in annotations)
            {
                // 处理注释对象，如获取注释的文本内容
                Console.WriteLine("Annotation at (" + annotation.GetPage() + "): " + annotation.ToString());
            }
        }
    }
}

这段代码不仅可以遍历每一页的尺寸，还可以访问页面上的注释。 GetPageSize 方法用于获取页面大小和旋转信息，而 GetPageN膀tifications 方法则用于获取页面注释数组。对每个注释对象，我们可以进行进一步的操作，例如读取注释文本。

6.2 PDF数据的提取与分析

6.2.1 提取PDF中的表格数据

提取PDF中的表格数据，尤其是对于那些需要从复杂的PDF报告中自动化抽取数据的情况，使用iTextSharp库可以大大简化工作。以下是如何使用iTextSharp来定位PDF中的表格，并提取其数据：

PdfReader reader = new PdfReader("document.pdf");
PdfImportedPage page = reader.GetPageN膀tifications(1);
List<IList<IElement>> tableElements = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTableElements(page);
foreach (IList<IElement> row in tableElements)
{
    foreach (IElement element in row)
    {
        // 处理单元格内容
        if (element is iTextSharp.text.pdf.parser.TextRenderInfo)
        {
            iTextSharp.text.pdf.parser.TextRenderInfo textElement = (iTextSharp.text.pdf.parser.TextRenderInfo)element;
            Console.WriteLine(textElement.GetText().Trim());
        }
    }
}

GetTableElements 方法是提取表格数据的关键。这个方法返回一个二维列表，其中包含每行的数据，每行又是一个包含单元格元素的列表。对每个单元格元素，如果是文本类型，可以调用 GetText 方法来获取其中的内容。

6.2.2 利用OCR技术处理非可搜索PDF

对于包含扫描图像而非可搜索文本的PDF文件，可以使用光学字符识别（OCR）技术将图像中的文字转换为可编辑、可搜索的文本。iTextSharp库与Tesseract OCR引擎配合，可以实现这一功能。以下示例展示了如何集成OCR技术来处理非可搜索PDF：

// 注意：使用Tesseract OCR引擎需要先安装Tesseract的.NET封装库，如Tesseract.Net
using Tesseract;

// 加载PDF并提取所有页面
using (PdfReader reader = new PdfReader("scanned_document.pdf"))
{
    for (int page = 1; page <= reader.NumberOfPages; page++)
    {
        // 读取页面图像
        using (FileStream fs = new FileStream("page_" + page + ".png", FileMode.Create))
        {
            ImageIO.Write(reader.GetPageN膀tifications(page), ImageFormat.Png, fs);
        }

        using (TesseractEngine engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
        {
            using (Pix image = Pix.LoadFromFile("page_" + page + ".png"))
            {
                using (Page page = engine.Process(image))
                {
                    string text = page.GetText();
                    // 保存提取的文本
                    File.WriteAllText("page_" + page + ".txt", text);
                }
            }
        }
    }
}

上述代码首先从PDF中提取每一页的图像，并将其保存为PNG文件。然后使用Tesseract引擎对这些图像进行OCR处理，将扫描的文字转换为文本。这样，非可搜索PDF中的文字就变得可编辑和可搜索了。

这节内容深入探讨了iTextSharp在PDF读取、解析以及数据提取方面的应用。理解并掌握这些方法对开发者来说是非常有帮助的，尤其是在自动化数据处理、报告生成等场景中。接下来的章节中，我们将进一步探索其他高级主题，如PDF内容的优化和性能提升等。

7. 使用iText处理PDF表单和文档安全性

在本章中，我们将深入了解如何利用iText库来操作PDF表单以及增加文档的安全性。iText提供了丰富的接口用于处理PDF表单，包括表单的创建、填写、提取数据等功能。同时，它也支持为PDF文档添加各种安全措施，如密码保护、数字签名以及权限管理。

7.1 PDF表单的创建与操作

iText允许开发者创建带有表单字段的PDF文档，这些字段可以是文本框、复选框、单选按钮等。操作这些表单元素可以提高文档的交互性，并使得收集数据变得更加方便。

7.1.1 创建带表单字段的PDF文档

下面的示例代码将创建一个简单的PDF表单，并添加一个文本输入字段。

using System;
using System.IO;
using iText.Kernel.Pdf;
using iText.Forms;
using iText.Kernel.Geom;
using iText.Layout;
using iText.Layout.Properties;

public class CreatePdfForm
{
    public static void Main(String[] args)
    {
        String dest = "form.pdf";

        // 创建一个新的PDF文档
        using (PdfWriter writer = new PdfWriter(dest))
        using (PdfDocument pdfDoc = new PdfDocument(writer))
        {
            // 创建一个表单
            PdfAcroForm form = PdfFormCreator.CreateAcroForm(pdfDoc, true);

            // 创建表单字段
            PdfFormField textField = PdfFormField.CreateText(pdfDoc, new Rectangle(52, 788, 100, 30), "name", "");
            textField.SetFieldFlags(PdfTextFormField.FF_COMMIT_ON_SEL_EXIT);

            // 添加字段到表单
            form.AddField(textField);
            // 将表单添加到文档中
            pdfDoc.AddNewPage();
            form.MakeFormFlattened();
            pdfDoc.Close();
        }
    }
}

上述代码中， PdfAcroForm 类用于创建PDF表单对象， PdfFormField.CreateText() 方法创建了一个文本类型的表单字段，并指定了字段的位置和名称。最后，我们通过 form.AddField() 方法将表单字段添加到了PDF文档中。

7.1.2 提取和填写表单数据

除了创建表单，iText也支持读取和填充表单字段。

// 打开已有PDF文档
using (PdfDocument pdfDoc = new PdfDocument(new PdfReader(dest)))
{
    PdfAcroForm form = PdfFormCreator.GetAcroForm(pdfDoc, true);
    // 填充文本字段
    form.GetField("name").SetValue("John Doe");
    // 将填充后的表单写回文件
    form.flattenFields();
}

在上面的示例中，我们首先使用 PdfReader 打开一个已存在的PDF文档。然后获取表单，并为"名字"这个字段填充文本值"John Doe"。

7.2 PDF文档的安全性设置

保护PDF文档的安全是iText提供的一个重要功能。通过设置密码和权限控制，可以防止未授权用户访问或修改PDF文档。

7.2.1 设置文档密码和权限

为文档添加密码可以防止未授权用户打开或打印文档。

using iText.Kernel.Pdf.Action;

PdfDocument pdfDoc = new PdfDocument(new PdfWriter("secure_document.pdf"));
pdfDoc.AddNewPage();

// 设置打开文档密码
pdfDoc.SetReaderPassword("open_password");
// 设置文档权限，如不允许复制文本
pdfDoc.SetUserPassword("user_password");
var permissions = new PdfDocumentSecurityHandler.UserPermissions
{
    CanCopyContent = false,
    CanPrint = true,
    CanModifyContent = false
};
pdfDoc.GetSecurityHandler().SetUserPermissions(permissions);

pdfDoc.Close();

在上述代码中， PdfWriter 的构造函数被用来设置打开密码（"open_password"），而 SetUserPassword() 方法用于设置用户密码（"user_password"）。我们还可以设置用户权限，比如在上述示例中，我们设置不允许复制文本内容但允许打印。

7.2.2 数字签名和文档完整性验证

数字签名不仅可以保护文档内容不被篡改，还可以用来验证文档的来源。通过使用iText，开发者可以为PDF文件添加数字签名，并使用签名验证文档的完整性。

iText在创建数字签名时需要使用数字证书。以下代码展示了如何为PDF添加数字签名：

// 生成签名证书的示例代码省略
// 使用证书信息创建签名
PdfPKCS7 pkcs7 = new PdfPKCS7(null, certificate, digestAlgorithm, subfilter, providerName, signatureDate);
pkcs7.SetSignDate(signatureDate);
byte[] digest = DigestAlgorithms.CalculateMessageDigest(document.GetPdfObject().GetBytes(), digestAlgorithm);
var signature = new PdfSignature(PdfName.Adobe_PPKLite, PdfName.Adbe.pkcs7.sha1);
signature.SetContents(pkcs7.GetEncodedPkcs7(digest));
signature.SetReason("Signature Reason");
signature.SetLocation("Signature Location");
signature.SetDate(new PdfDate(signatureDate));

// 添加签名到PDF
pdfDoc.GetPage(1).GetPdfObject().Put(PdfName.Annotation, signature.GetPdfObject());
pdfDoc.Close();

在这段示例代码中，首先创建了一个 PdfPKCS7 对象，并使用了数字证书的相关信息。然后计算了PDF文档内容的摘要值，并创建了一个签名对象。最后，将这个签名对象添加到PDF文档的第一页中。

本章节介绍了使用iText处理PDF表单的基本方法，以及为PDF文档设置安全措施的相关操作。通过这些示例和代码，开发者可以对如何创建、操作表单，以及如何保护PDF文档的安全性有一个初步的了解。

本文还有配套的精品资源，点击获取