java读取文章实现分段落/分页

代码如下:

import java.io.FileReader;
import java.io.BufferedReader;
import java.io.IOException;

class ReadLine 
{
	public static void main(String[] args) throws IOException
	{
		FileReader fr = new FileReader("E:/java task/cookie reader/荷塘月色.txt");//FileReader 用于读文件
		BufferedReader br = new BufferedReader(fr);//使用缓冲区的方法将数据读入到缓冲区中
		String str;
		int i=1;
		int a=0,b=1;
		while((str = br.readLine()) != null)
		{
			System.out.println( "["+i+"]:" + str);
			System.out.println( );
			if(i==a+10)   //分页(以每10个段落为一页)
			{
				System.out.println("------------------------  page "+b+"  ------------------------");
				a=a+10;
				b=b+1;
			}
			i=i+1;
		}
	}
}

结果如下:
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Java可以使用Apache POI库来读取doc、docx文件内容和图片,并且可以区不同的段落。下面是一个简单的示例代码,可以读取Word文档中的所有内容和图片,并将它们按照段落进行组: ```java import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.usermodel.*; import org.apache.poi.xwpf.usermodel.*; import java.io.FileInputStream; import java.io.InputStream; import java.util.ArrayList; import java.util.List; public class ReadWord { public static void main(String[] args) throws Exception { // 读取Word文档 InputStream is = new FileInputStream("test.docx"); XWPFDocument xwpfDocument = new XWPFDocument(is); // 获取文档中的所有段落 List<XWPFParagraph> paragraphs = xwpfDocument.getParagraphs(); // 将段落按照页码组 List<List<XWPFParagraph>> pages = groupParagraphsByPage(paragraphs); // 处理每一页的内容 for (int i = 0; i < pages.size(); i++) { List<XWPFParagraph> page = pages.get(i); System.out.println("Page " + (i + 1)); for (XWPFParagraph paragraph : page) { // 打印文本内容 System.out.println(paragraph.getText()); // 获取段落中的所有图片 List<XWPFPicture> pictures = paragraph.getRuns().stream() .filter(run -> run instanceof XWPFPicture) .map(run -> (XWPFPicture) run) .toList(); // 处理图片数据 for (XWPFPicture picture : pictures) { byte[] imageData = picture.getPictureData().getData(); // 处理图片数据 } } } // 关闭文档 xwpfDocument.close(); } // 将段落按照页码组 private static List<List<XWPFParagraph>> groupParagraphsByPage(List<XWPFParagraph> paragraphs) { List<List<XWPFParagraph>> pages = new ArrayList<>(); int pageIndex = -1; for (XWPFParagraph paragraph : paragraphs) { int newPageIndex = paragraph.getDocument().getPosOfParagraph(paragraph); if (newPageIndex != pageIndex) { pageIndex = newPageIndex; pages.add(new ArrayList<>()); } pages.get(pages.size() - 1).add(paragraph); } return pages; } } ``` 这个例子中,我们使用了Apache POI的XWPFDocument类来加载docx文档,并使用getParagraphs()方法获取文档中的所有段落。我们可以使用getText()方法获取段落中的文本内容。如果段落中包含图片,我们可以使用getRuns()方法获取所有的Run对象,然后过滤出所有的XWPFPicture对象,并使用getPictureData()方法获取图片的二进制数据。最后,我们可以处理这些图片数据,例如将它们保存到本地磁盘或者上传到服务器。 需要注意的是,对于doc文件,我们需要使用HWPFDocument类来加载文档,并使用getRange()方法获取文档的范围。另外,对于大型文档,可能需要考虑使用分页加载等技术来提高性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值