JAVA获取word表格中数据的方案

 

         上一个项目的开发中需要实现从word中读取表格数据的功能,在JAVA社区搜索了很多资料,终于找到了两个相对最佳的方案,因为也得到了不少网友们的帮助,所以不敢独自享用,在此做一个分享。

         两个方案分别是:一,用POITableIterator获取表格中的数据;二,用PageOffice来获取。

为什么说是两个相对最佳的方案呢?因为两个方案都各有优缺点,POI的优点很明显,就是免费,这正是PageOffice的缺点,PageOffice是一个国产的商业Office组件;POI的缺点有点多,接口复杂调用起来比较麻烦,尤其是不好读取word指定位置处的内容。由于获取表格数据的代码是在服务器端执行的,所以要求很高的代码质量,要考虑到代码执行效率问题、用户请求并发问题、大文档执行慢阻塞页面的问题等等,POI的架构属于仿VBA接口的模型,比VBA代码还要复杂,在调用方便上未做任何优化,光看代码都觉得头疼。所以在实际使用的过程中会遇到这些问题需要自己解决,相对来说这正是PageOffice的优点,使用PageOffice的话,就不会遇到这些问题,因为PageOffice的获取word中表格数据的工作是在客户端执行的,确实也符合了分布式计算思想,减轻服务器端压力,最为强悍的是,用PageOffice竟然可以从word表格中用很简单一句代码把图片提取出来,实在是出乎意料……

顶礼膜拜中……

膜拜完毕再回回神儿,PageOffice是收费的,但是事半功倍,而且还能实现许多POI无法实现的功能。如果确实预算紧张,还是需要用POI,再难用也要捏着鼻子用了……,闲话少撤,看代码实现。

POI获取word表格中数据的代码如下:

====================================

package PoiTest;

 

import java.io.FileInputStream;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.hwpf.usermodel.Table;

import org.apache.poi.hwpf.usermodel.TableCell;

import org.apache.poi.hwpf.usermodel.TableIterator;

import org.apache.poi.hwpf.usermodel.TableRow;

 

 

import org.apache.poi.poifs.filesystem.POIFSFileSystem;

 

public class ExportDocImpl {

public static void testWord() {

   try {

    FileInputStream in = new FileInputStream("F:\\table.doc");// 加载文档

    POIFSFileSystem pfs = new POIFSFileSystem(in);

    HWPFDocument hwpf = new HWPFDocument(pfs);

    Range range = hwpf.getRange();// 获取文档的读取范围

    TableIterator it = new TableIterator(range);

    // 迭代文档中的表格

    while (it.hasNext()) {

     Table tb = (Table) it.next();

     // 迭代行,默认从0开始

     for (int i = 0; i < tb.numRows(); i++) {

      TableRow tr = tb.getRow(i);

      // 迭代列,默认从0开始

      for (int j = 0; j < tr.numCells(); j++) {

        TableCell td = tr.getCell(j);

      // System.out.println(td.text());

       // 取得单元格的内容

       for (int k = 0; k < td.numParagraphs(); k++) {

        Paragraph para = td.getParagraph(k);

        String s = para.text();

        System.out.println(s.replaceAll("\r", "").replaceAll(" ","")+":"+s2.replaceAll("\r", "").replaceAll(" ",""));

       }

 

      }

     }

    }

 

     in.close();

   } catch (Exception e) {

    e.printStackTrace();

   }

}

 

public static void main(String[] args){

   testWord();

}

 

}

 

PageOffice获取word表格中数据的代码:

=====================================

import com.zhuozhengsoft.pageoffice.*;

import com.zhuozhengsoft.pageoffice.wordreader.*    ;

 

         // 创建word文件处理对象

WordDocument doc = new WordDocument(request, response);

         DataRegion dataReg = doc.openDataRegion("PO_table");

         SimpleDateFormat format = new SimpleDateFormat("yyyyMMddHHmmSS");

         //获取Word中指定单元格内插入的图片

         Shape shape = dataReg.openTable(1).openCellRC(1,5).openShape(1);

         String path = "photos/" + format.format(new Date()) + ".jpg";

         String PhotoUrl = request.getSession().getServletContext()

                            .getRealPath(path);

         shape.saveAsJPG(PhotoUrl);//保存图片到某个目录下

 

         Table table = dataReg.openTable(1);

         //Word中的table获取数据

         String Name = table.openCellRC(1, 2).getValue();

         String Sex = table.openCellRC(2, 2).getValue();

         String EduGrade = table.openCellRC(2, 4).getValue();

         String Profession = table.openCellRC(3, 2).getValue();

         String Job = table.openCellRC(3, 4).getValue();

         String Experience = table.openCellRC(4, 2).getValue();

         String Address = table.openCellRC(6, 3).getValue();

         String Email = table.openCellRC(7, 3).getValue();

         String Phone = table.openCellRC(8, 3).getValue();

 

         doc.close();

 

        PageOffice的以上代码是从例子代码里拷贝出来的,可以从PageOffice的官网下载中心下载“PageOffice for JAVA Word ResumeDemo[示例代码]”看看里面的具体代码和实现效果。需要说明一点,PageOffice中提到了一个数据区域(DataRegion)的概念,其实所谓的数据区域本质上就是书签,但是这个书签必须以“PO_”开头,编程的时候代码里这个前缀还必须大写,虽然有这么一点不方便,但是好处很大,如果word文件中有多个表格的话,可以用数据区域去指定PageOffice获取word中哪个表格的数据,定位非常方便,比方说PO_Table的书签里有一个表格,那么不管这个表格在整个word文件中是第几个表(word中的表格没有名称只有Index,从文件头到末尾依次编号的)用doc.openDataRegion("PO_table").openTable(1);总是可以获取到这个表格的数据,非常方便,用POI就不行了,表格、图片位置移动,代码必须重写。

       就写这么多吧,做个共享,希望对大家都有帮助。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值