Java读取word文档解决方案

      java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。

 

----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。

 

----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。

       1、采用字节的形式读取rtf模板内容

       2、将可变的内容字符串转为rtf编码

       3、替换原文中的可变部分,形成新的rtf文档

 

主要程序如下:

/**

 * 将制定的字符串转换为rtf编码

 */

public String bin2hex(String bin) {
        char[] digital = "0123456789ABCDEF".toCharArray();
        StringBuffer sb = new StringBuffer("");
        byte[] bs = bin.getBytes();
        int bit;
        for (int i = 0; i < bs.length;i++) {
            bit = (bs[i] & 0x0f0) >> 4;

            sb.append("\\'");
            sb.append(digital[bit]);
            bit = bs[i] & 0x0f;
            sb.append(digital[bit]);
        }
        return sb.toString();
    }

 

/**

 * 字节形式读取rtf模板内容

 */

public String readByteRtf(InputStream ins, String path){

   String sourcecontent = "";
  try{
    ins = new FileInputStream(path);
    byte[] b = new byte[1024];
          if (ins == null) {
               System.out.println("源模板文件不存在");
          }
          int bytesRead = 0;
          while (true) {
              bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
              if(bytesRead == -1) {// end of InputStream
               System.out.println("读取模板文件结束");
               break;
              }
              sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
           }
  }catch(Exception e){
   e.printStackTrace();
  }

}

 

      以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。运行源代码前提:

 

c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf 的文件。。。。。文件名是在程序中指定的呵呵。由于是由商业软件中拆分出的demo所以只是将自己原来的写的程序分离,合并在一个java文件中,所以有的方法在示例程序中看似多余,没有必要那么麻烦。

 

     对于替换部分需要循环的特例程序,我不好拆分,里面很容易暴露商业软件的东西,所以就不贴了,有需要的话可以加我QQ或者MSN,一起讨论呵呵。附件传了半天也没有传上去,没有办法只有这样搞了呵呵。模板文件附件无法存放,需要的直接联系呵呵。其实直接看以下的java程序部分,就会明白

 

/**

 * 以下部分是java源代码

 */

 

 

package com;

 

import java.io.File;

import java.io.FileInputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.text.SimpleDateFormat;

import java.util.Date;

 

public class OperatorRTF {

 

/**

* 字符串转换为rtf编码

* @param content

* @return

*/

public String strToRtf(String content){

char[] digital = "0123456789ABCDEF".toCharArray();

        StringBuffer sb = new StringBuffer("");

        byte[] bs = content.getBytes();

        int bit;

        for (int i = 0; i < bs.length; i++) {

            bit = (bs[i] & 0x0f0) >> 4;

         sb.append("\\'");

            sb.append(digital[bit]);

            bit = bs[i] & 0x0f;

            sb.append(digital[bit]);

        }

        return sb.toString();

}

 

/**

* 替换文档的可变部分

* @param content

* @param replacecontent

* @param flag

* @return

*/

public String replaceRTF(String content,String replacecontent,int flag){

String rc = strToRtf(replacecontent);

String target = "";

/*if(flag==0){

target = content.replace("$time$",rc);

}*/

if(flag==0){

target = content.replace("$timetop$",rc);

}

if(flag==1){

target = content.replace("$info$",rc);

}

if(flag==2){

target = content.replace("$idea$",rc);

}

if(flag==3){

target = content.replace("$advice$",rc);

}

if(flag==4){

target = content.replace("$infosend$",rc);

}

return target;

}

 

/**

* 获取文件路径

* @param flag

* @return

*/

public String getSavePath() {

 

String path = "C:\\YQ";

 

File fDirecotry = new File(path);

if (!fDirecotry.exists()) {

fDirecotry.mkdirs();

}

return path;

}

 

/**

* 半角转为全角

*/

public String ToSBC(String input){

   char[] c = input.toCharArray();

   for (int i = 0; i < c.length; i++){

       if (c[i] == 32){

           c[i] = (char) 12288;

           continue;

       }

       if (c[i] < 127){

        c[i] = (char) (c[i] + 65248);

       }

   }

   return new String(c);

}

 

public void rgModel(String username, String content) {

// TODO Auto-generated method stub

/*  构建生成文件名 targetname:12时10分23秒_username_记录.rtf */

Date current=new Date();

        SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

String targetname = sdf.format(current).substring(11,13) + "时";

targetname += sdf.format(current).substring(14,16) + "分";

targetname += sdf.format(current).substring(17,19) + "秒";

targetname += "_" + username +"_记录.rtf";

 

/* 字节形式读取模板文件内容,将结果转为字符串 */

String strpath = getSavePath();

String sourname = strpath+"\\"+"模板.rtf";

String sourcecontent = "";

InputStream ins = null;

try{

ins = new FileInputStream(sourname);

byte[] b = new byte[1024];

        if (ins == null) {

             System.out.println("源模板文件不存在");

        }

        int bytesRead = 0;

        while (true) {

            bytesRead = ins.read(b, 0, 1024); // return final read bytes counts

            if(bytesRead == -1) {// end of InputStream

            System.out.println("读取模板文件结束");

            break;

            }

            sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes

         }

}catch(Exception e){

e.printStackTrace();

}

/* 修改变化部分 */

String targetcontent = "";

/**

* 拆分之后的数组元素与模板中的标识符对应关系

* array[0]:timetop    

* array[1]:info

* array[2]:idea

* array[3]:advice

* array[4]:infosend

*/

String array[] = content.split("~");

/**

* 2008年11月27日:更新模板之后时间无需自动填充

*/

/*String nowtime = sdf.format(current).substring(0,4) + "年";

nowtime += sdf.format(current).substring(5,7) + "月";

nowtime += sdf.format(current).substring(8,10) + "日";*/

for(int i=0;i<array.length;i++){

/*if(i==0){

targetcontent = documentDoc.replaceRTF(sourcecontent,nowtime,i);

}else{

targetcontent = documentDoc.replaceRTF(targetcontent,array[i-1],i);

}*/

if(i==0){

targetcontent = replaceRTF(sourcecontent, array[i], i);

}else{

targetcontent = replaceRTF(targetcontent, array[i], i);

}

 

}

/* 结果输出保存到文件 */

try {

FileWriter fw = new FileWriter(getSavePath()+"\\" + targetname,true);

            PrintWriter out = new PrintWriter(fw);

            if(targetcontent.equals("")||targetcontent==""){

             out.println(sourcecontent);

            }else{

             out.println(targetcontent);

            }

            out.close();

            fw.close();

            System.out.println(getSavePath()+"  该目录下生成文件" + targetname + " 成功");

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

 

 

 

 

public static void main(String[] args) {

// TODO Auto-generated method stub

OperatorRTF oRTF = new OperatorRTF();

/**

* 被替换内容以"~"符号分割,处理的时候将其拆分为数组即可

*/

String content = "2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";

oRTF.rgModel("cheney",content);

 

}

 

}

POI是Apache的一个开源项目,可以到Apache网站下载相应的jar包文件,及其源文件。 POI提供了提取一些非TXT文本中文本内容的API,比如提取Word,Excel等,使用起来非常方便。 为了说明POI提起Word文件的方便和简单,通过提取一个Word文件的文本来,来了解POI API的功能。 假设在本地磁盘中存在一个Word文件 E:\POI\word\JBoss3.0 下配置和部署EJB简介.doc文件是具有格式的,内容如图所示: 下面看看提取它的内容是多么简单。 首先从Apache网站上下载POI的相关jar包。 新建一个测试类: package org.shirdrn.word; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import org.apache.poi.hwpf.extractor.WordExtractor; public class MyWordExtractor { public static void main(String[] args) { File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc"); try { FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】"); System.out.println(wordExtractor.getText()); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } 提取Word文件的文本内容,打印到控制台上,如下所示: 使用WordExtractor类的getTextFromPieces()方法提取: wordExtractor.getTextFromPieces(); 结果和上面是一样的。 WordExtractor类还有一个可以提取Word文件的各个段落的方法getParagraphText(),返回一个String[]数组,数组中每个元素为一个段的文本内容。 这里,对Word文件中换行也看成是一个段,测试如下: package org.shirdrn.word; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import org.apache.poi.hwpf.extractor.WordExtractor; public class MyWordExtractor { public static void main(String[] args) { File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc"); try { FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】"); String[] paragraph = wordExtractor.getParagraphText(); System.out.println("该Word文件共有"+paragraph.length+"段。"); for(int i=0;i<paragraph.length;i++){ System.out.println(""); System.out.println(paragraph[i]); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } 提取Word文件的文本内容,打印到控制台上,如下所示: 从上面的Word文件可以看出,最后一行是Word文件的一个换行符,使用WordExtractor提取时,也把它默认成为一个段,因为一个段结束后应该有一个回车换行符。 如果有多个Word文件,而且放在不同的目录下,要提取它们的文本内容,可以实现一个递归的函数,通过深度遍历,为每一个Word文件进行提取。 如果需要,可以将提取到的Word文件的文本内容输出到本地磁盘中,比如以txt记事本的根式保存。 从上面可以看出,提取Word文件的文本内容,实际上是将Word文件的格式去掉了,获取到文本的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值