poi word excel ppt pdf 读取纯文件流适用于lucene全文检索

最新推荐文章于 2023-02-05 20:51:14 发布

jc橙子

最新推荐文章于 2023-02-05 20:51:14 发布

阅读量1.5k

点赞数

文章标签： lucene poi word excel ppt

本文链接：https://blog.csdn.net/sinat_36795605/article/details/66969866

版权

package com.fzky.diams.web.luncene;
import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.poi.hslf.extractor.PowerPointExtractor;
import org.apache.poi.hssf.extractor.ExcelExtractor;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.xslf.extractor.XSLFPowerPointExtractor;
import org.apache.poi.xslf.usermodel.XMLSlideShow;
import org.apache.poi.xssf.extractor.XSSFExcelExtractor;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
public class ReaderFile {
    public static String readWord(String path) {
       StringBuffer content = new StringBuffer("");// 文档内容
       try {

           HWPFDocument doc = new HWPFDocument(new FileInputStream(path));
           Range range = doc.getRange();
           int paragraphCount = range.numParagraphs();// 段落
           for (int i = 0; i < paragraphCount; i++) {// 遍历段落读取数据
               Paragraph pp = range.getParagraph(i);
               content.append(pp.text());
           }

       } catch (Exception e) {
           e.printStackTrace();
       }
       return content.toString().trim();
   }
   public static String readWordDocx(String path) throws IOException {
        File file = new File(path);
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            XWPFDocument xdoc = new XWPFDocument(fis);
            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);
            str = extractor.getText();
            fis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
       return str;
    }
       //直接读取Excel97-2003的全部内容    xls
        public static String getTextFromExcel(String filePath){
            InputStream is = null;
            HSSFWorkbook wb = null;
            String text="";
            try {

最低0.47元/天解锁文章

jc橙子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
poi word excel ppt pdf 读取纯文件流适用于lucene全文检索

package com.fzky.diams.web.luncene;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;imp
复制链接

扫一扫