使用URL(.NET)从网页读取PDF

大家好,

对于大多数人来说,这不是火箭科学,但我很难弄清楚如何通过URL读取PDF并将其保存到磁盘。 您可以为此使用PDFBox dll,但是对于那些想使用纯.NET的人,下面是一些代码:


The namespaces: 
using System.Text;
using System.IO; 
剧本:

//sends the request, converts response to s stream
HttpWebRequest webRequest = (HttpWebRequest) WebRequest.Create(pdfURL);
HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();
Stream reqStr = webResponse.GetResponseStream(); 
//reads the response stream
StreamReader sr = new StreamReader (reqStr,System.Text.Encoding.Unicode); 
//writes stream to a PDF file
StreamWriter sw = new StreamWriter(savePathPDF, false, System.Text.Encoding.Unicode);
sw.Write(sr.ReadToEnd());
sw.Close();
希望这会有所帮助。

From: https://bytes.com/topic/net/insights/872859-reading-pdf-web-page-using-url-net

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 您好,关于Java读取在线PDF代码的问题,可以使用Apache PDFBox库来实现。您可以通过以下步骤来读取在线PDF文件: 1. 使用Java的URL类来打开在线PDF文件的连接。 2. 将该连接传递给PDFBox的PDFDocument类的构造函数,创建一个PDF文档对象。 3. 使用PDFTextStripper类从PDF文档对象提取文本数据。 4. 关闭PDF文档对象。 以下是一个示例代码: ```java import java.net.URL; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class PDFReader { public static void main(String[] args) throws Exception { URL url = new URL("http://example.com/sample.pdf"); PDDocument document = PDDocument.load(url); PDFTextStripper pdfStripper = new PDFTextStripper(); String text = pdfStripper.getText(document); System.out.println(text); document.close(); } } ``` 这段代码将打开指定URLPDF文件,并将文本数据提取到字符串变量。注意,在使用PDFBox库之前,您需要将其添加到您的Java项目。 ### 回答2: Java读取在线PDF的代码可以使用iText库。iText是一个功能强大的Java库,用于创建和操作PDF文档。下面是通过Java代码读取在线PDF的步骤: 1. 导入iText库的相关类和方法: ``` import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; ``` 2. 创建PdfReader对象并指定要读取PDF文件的URL或文件路径: ``` String url = "http://example.com/file.pdf"; // 或者是本地文件路径 PdfReader reader = new PdfReader(url); ``` 3. 获取PDF文档的总页数: ``` int totalPages = reader.getNumberOfPages(); ``` 4. 逐页读取PDF文档的内容: ``` String text = ""; for (int i = 1; i <= totalPages; i++) { text += PdfTextExtractor.getTextFromPage(reader, i); } ``` 5. 关闭PdfReader对象: ``` reader.close(); ``` 以上代码将逐页读取PDF内容并存储在一个String变量text。你可以根据需要进一步处理和使用这个文本。 需要注意的是,为了运行上述代码,你需要将iText库添加到你的Java项目。你可以从iText官方网站上下载并导入iText jar文件。 ### 回答3: 要想使用Java读取在线PDF文件,可以使用第三方库Apache PDFBox。下面是一个示例代码: ```java import java.io.BufferedInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.URL; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class PDFReader { public static void main(String[] args) { String pdfUrl = "http://example.com/sample.pdf"; // 在线PDF文件的URL地址 try { URL url = new URL(pdfUrl); InputStream in = url.openStream(); BufferedInputStream bis = new BufferedInputStream(in); PDDocument doc = PDDocument.load(bis); PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(doc); // 将提取的文本保存到本地文件 FileOutputStream fos = new FileOutputStream("output.txt"); fos.write(text.getBytes()); fos.close(); doc.close(); System.out.println("PDF文件读取完成!"); } catch (IOException e) { e.printStackTrace(); } } } ``` 这段代码使用Apache PDFBox库,首先通过URL对象打开PDF文件的输入流,然后使用`PDDocument`类加载输入流,获取PDF文件对象。接着使用`PDFTextStripper`类将PDF文档的文本提取出来。最后,将提取的文本保存到本地文件"output.txt"。 需要注意的是,为了运行此代码,需要将Apache PDFBox库添加到Java项目的依赖

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值