如何从doc文件里提取纯文本

转载 2004年07月25日 18:38:00

1.在VC中新建一控制台程序,选支持MFC(当然,你也可以不选择支持MFC的,不过会很麻烦) 
 
2.按CTRL+W调出MFC  ClassWizard,Add  Class->From  a  type  library,选择你的word的类型库(例如我的是word2003,安装在e盘,我的路径是"e:/edittools/microsoft  office/office11/msword.olb"),选择完毕后,在弹出的窗口中选择要让classwizard生成的包装类,在本例中要用到_Application,Documents,_Document,Range这四个类,选中他们后按OK 
 
3.进入你的main函数所在的cpp文件,加入头文件引用 
#include  "msword.h"    //引用刚才classwizard生成的idispatch包装类 
 
4.加入代码 
int  _tmain(int  argc,  TCHAR*  argv[],  TCHAR*  envp[]) 

           int  nRetCode  =  0; 
 
           if  (!AfxWinInit(::GetModuleHandle(NULL),  NULL,  ::GetCommandLine(),  0)) 
           { 
                       cerr  <<  _T("Fatal  Error:  MFC  initialization  failed")  <<  endl; 
                       nRetCode  =  1; 
           } 
           else 
           { 
                       if  (CoInitialize(NULL)  !=  S_OK)   
                       {   
                                   AfxMessageBox("初始化COM支持库失败!");   
                                   return  -1; 
                       } 
 
                       _Application  wordApp; 
                       Documents  docs; 
                       _Document  doc; 
                       Range  aRange; 
 
                       COleVariant  vTrue((short)TRUE),   
                       vFalse((short)FALSE),   
                       vOpt((long)DISP_E_PARAMNOTFOUND,  VT_ERROR);   
 
                       wordApp.CreateDispatch("Word.Application",NULL); 
                       wordApp.SetVisible(FALSE); 
                       docs=wordApp.GetDocuments(); 
                       doc=docs.Open(COleVariant("d://txt.doc"),vFalse,vTrue,vFalse,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt,vOpt); 
                       aRange=doc.Range(vOpt,vOpt); 
 
                       AfxMessageBox(aRange.GetText());//这里GetText得到的就是word文件的纯文本了,你可以将其写到txt文件中 
                        
                       doc.Close(vOpt,vOpt,vOpt); 
                       wordApp.Quit(vOpt,vOpt,vOpt); 
                        
 
 
                       CoUninitialize(); 
           } 
 
           return  nRetCode; 

这样就不文件读出来了.然后在用CFile写个新文件就可以了

从伪word格式的doc文件中提取文本内容

从mht文件中提取html内容 最近做的一个程序中,需要把从51job导出来的简历进行解析,51job支持doc和mht格式。开始时以为该doc文件是Word文件,于是采用Apache POI中提供...
  • dac55300424
  • dac55300424
  • 2014年03月12日 15:15
  • 952

Word,Excel,pdf,txt等文件上传并提取内容

最近项目需求:1.要用到各种文件上传,下载。 2.并对文件进行搜索。 3.只要文件中包含有搜索的内容,全部显示出来。 今天正好有时间整理一下,方便以后阅读,及对需要用到的朋友提供...
  • seashouwang
  • seashouwang
  • 2014年04月19日 12:08
  • 1769

从Word文档中提取嵌入对象

从Word文档中提取嵌入对象 有时候我们可能需要提取嵌入到一个word文档的对象。这篇文章将讲述如何使用C#及一个免费Word组件- FreeSpire.Doc 从一个word文档中提取嵌入的对象。...
  • Eiceblue
  • Eiceblue
  • 2016年09月08日 16:49
  • 2911

Java实现从Html文本中提取纯文本

1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签; 2、代码一:replaceAll搞定 //从html中提取纯文本 public static ...
  • fjssharpsword
  • fjssharpsword
  • 2016年12月05日 17:04
  • 8666

Java正则表达式提取html纯文本

做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题。现将我做的正则匹配贴上: import java.util.regex.Matcher; import java.util.reg...
  • w_j_w2010
  • w_j_w2010
  • 2015年11月24日 16:33
  • 1874

自动提取文本关键词demo

# coding=utf-8 # !/usr/bin/env python ''' 【数据源】 随机抽取新浪新闻23篇(newsTxt.txt)及其文末标注的关键词(newsKw.txt),其中一行为...
  • wy_0928
  • wy_0928
  • 2017年06月27日 15:08
  • 2274

Apose.word控件获取书签中的内容并复制到一个新的word文档中

引言    最近项目中遇到了这么一个需求就是需要我获得上传上来的word文件中的内容,但是在开始的时候自己一点思 路都没有,在之前的项目中遇到过对word操作的需求,所以初步的想法...
  • u013045437
  • u013045437
  • 2016年01月08日 23:43
  • 1099

java 正则匹配提取html纯文本

java 正则匹配提取html纯文本
  • jiangfullll
  • jiangfullll
  • 2014年07月30日 10:08
  • 2948

php提取纯文本中的链接地址

header('Content-type=text/html;charset=gb2312'); /** * @author http://weibo.com/codersay * 功能是将纯...
  • codersay
  • codersay
  • 2013年11月14日 13:04
  • 797

Perl从文本文件中按关键字提取数据

#!/usr/bin/perl -w #require "convertword.pl"; use strict; use warnings; use Cwd; use File::...
  • rockiecxh
  • rockiecxh
  • 2014年03月04日 20:16
  • 2609
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何从doc文件里提取纯文本
举报原因:
原因补充:

(最多只允许输入30个字)