PDF文件Content流解压缩

最近网上有一些朋友问到PDF文件中关于表格,文字,图片的解析,想通过直接看PDF的二进制流是不能做到的,下面我将介绍一个很简单的方法,直接上代码(使用了itextpdf):

@Test
public void testPdfTool() throws IOException {
String outputPath = “d:\view.txt”;
PrintWriter writer = new PrintWriter(new FileOutputStream(outputPath));
String fileName = “d:\view.pdf”;
PdfContentReaderTool.listContentStream(new File(fileName), writer);
}

执行上面的代码可以将PDF文件中的文字和xobject及解压缩之后的content stream保存到指定的文件中。

你可以使用第三方库iTextSharp来将OFD文件转换成PDF文件。首先需要将OFD文件解压缩,然后将解压缩后的XML文件转换成PDF文件。 以下是一个示例代码: ```csharp using iTextSharp.text; using iTextSharp.text.pdf; using System.IO; using System.Xml; public static void ConvertOFDToPDF(string ofdFilePath, string pdfFilePath) { // 解压缩OFD文件 string tempFolderPath = Path.Combine(Path.GetTempPath(), Path.GetRandomFileName()); Directory.CreateDirectory(tempFolderPath); ZipFile.ExtractToDirectory(ofdFilePath, tempFolderPath); // 获取OFD文档的页面尺寸 string documentXmlPath = Path.Combine(tempFolderPath, "Documents", "Document.xml"); XmlDocument documentXml = new XmlDocument(); documentXml.Load(documentXmlPath); XmlNamespaceManager nsManager = new XmlNamespaceManager(documentXml.NameTable); nsManager.AddNamespace("ofd", "http://www.ofdspec.org"); XmlNode pageAreaNode = documentXml.SelectSingleNode("/ofd:Document/ofd:Pages/ofd:PageArea", nsManager); float pageWidth = float.Parse(pageAreaNode.Attributes["PageWidth"].Value); float pageHeight = float.Parse(pageAreaNode.Attributes["PageHeight"].Value); // 创建PDF文档 using (FileStream pdfFileStream = new FileStream(pdfFilePath, FileMode.Create)) { using (Document pdfDocument = new Document(new Rectangle(pageWidth, pageHeight))) { using (PdfWriter pdfWriter = PdfWriter.GetInstance(pdfDocument, pdfFileStream)) { pdfDocument.Open(); // 遍历OFD文档的页面,将每个页面转换成PDF页面 XmlNodeList pageNodes = documentXml.SelectNodes("/ofd:Document/ofd:Pages/ofd:Page", nsManager); foreach (XmlNode pageNode in pageNodes) { string pageFileNodeValue = pageNode.Attributes["BaseLoc"].Value; string pageFilePath = Path.Combine(tempFolderPath, pageFileNodeValue); using (FileStream pageFileStream = new FileStream(pageFilePath, FileMode.Open)) { using (MemoryStream pageMemoryStream = new MemoryStream()) { pageFileStream.CopyTo(pageMemoryStream); byte[] pageBytes = pageMemoryStream.ToArray(); // 将OFD页面转换成PDF页面 using (MemoryStream pdfMemoryStream = new MemoryStream()) { using (Document pageDocument = new Document()) { using (PdfWriter pdfPageWriter = PdfWriter.GetInstance(pageDocument, pdfMemoryStream)) { pageDocument.Open(); using (MemoryStream pageXmlStream = new MemoryStream(pageBytes)) { XmlDocument pageXml = new XmlDocument(); pageXml.Load(pageXmlStream); XmlNode pageContentNode = pageXml.SelectSingleNode("/ofd:Page/ofd:Content", nsManager); string pageContent = pageContentNode.InnerXml; using (MemoryStream pageContentStream = new MemoryStream()) { using (StreamWriter pageContentWriter = new StreamWriter(pageContentStream)) { pageContentWriter.Write(pageContent); pageContentWriter.Flush(); pageContentStream.Position = 0; XmlParserContext xmlParserContext = new XmlParserContext(null, nsManager, null, XmlSpace.None); XmlReaderSettings xmlReaderSettings = new XmlReaderSettings(); xmlReaderSettings.ConformanceLevel = ConformanceLevel.Fragment; using (XmlReader xmlReader = XmlReader.Create(pageContentStream, xmlReaderSettings, xmlParserContext)) { while (xmlReader.Read()) { if (xmlReader.NodeType == XmlNodeType.Element) { string elementName = xmlReader.Name; if (elementName == "ofd:TextObject") { string fontId = xmlReader.GetAttribute("Font"); string fontSizeString = xmlReader.GetAttribute("Size"); float fontSize = float.Parse(fontSizeString); string fontFamily = null; XmlNode fontNode = documentXml.SelectSingleNode($"/ofd:Document/ofd:Fonts/ofd:Font[@ID='{fontId}']", nsManager); if (fontNode != null) { fontFamily = fontNode.Attributes["FontName"].Value; } if (string.IsNullOrEmpty(fontFamily)) { fontFamily = "宋体"; } BaseFont baseFont = BaseFont.CreateFont($"{fontFamily},Bold", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED); Font font = new Font(baseFont, fontSize); string text = xmlReader.ReadElementContentAsString(); pdfDocument.Add(new Paragraph(text, font)); } else if (elementName == "ofd:PathObject") { // 处理OFD路径对象 } else if (elementName == "ofd:ImageObject") { // 处理OFD图像对象 } } } } } } } pageDocument.Close(); } } byte[] pdfBytes = pdfMemoryStream.ToArray(); PdfReader pdfReader = new PdfReader(pdfBytes); pdfWriter.DirectContent.AddTemplate(pdfWriter.GetImportedPage(pdfReader, 1), 0, 0); } } } } pdfDocument.Close(); } } } Directory.Delete(tempFolderPath, true); } ``` 请注意,这段代码只是一个示例,可能需要根据你的具体情况进行修改和调整。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秋风之刀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值