最近在做一个附件的全文搜索功能,做这个功能首先要解决的问题就是把文档的文本信息全部提取出来,现在使用的是使用对文档进行编程的方式来提取文本,每种文档类型需要特别写一个程序来提取相应的文本。
最近发现在在 WINDOWS 里有一个自带的虚拟打印机,把文档打印到这个打印机的时候,会生成一个文件,这个文件中的内容全是文档的文本信息。
添加打印机:
在打印机管理中,点击添加打印机, 在第一步中选择“添加本地打印机”,在第二步的选择打印机端口选项选中“使用现有端口”,并在后面的下拉列表中选择“FILE:(打印到文件)”,在第三步选择打印机型号页中,在“厂商”列表中选择“Generic”,在“打印机”列表中选择“Generic / Text Only”, 点下一步完成打印机的添加。
然后随便找个文档打印一下,是不是打印出来的文档全是文本呢?
虽然实现的文档文本的提交,但是全是手工操作,不知道怎么使用程序来实现打文档打印到指定的打印机?