1、简介
想要将一些已经存在的word
知识文档转换成html
格式,Pandoc完全可以实现此功能。
主页:https://www.pandoc.org/
示例:https://www.pandoc.org/demos.html下载:https://github.com/jgm/pandoc/releases/
https://github.com/jgm/pandoc/releases/download/2.13/pandoc-2.13-windows-x86_64.msi
注:Pandoc可以实现各种各样的格式转换,详细可看此图。
2、转换仅文本的word文件为html
现有一个word文档“cisco.docx”,将要将它转换成html格式。
注:pandoc 不支持 doc格式,如果是 doc格式需要用 word将文件另存为 docx后再进行转换。
安装好pandoc后,打开命令提示符:
D:\tt>pandoc cisco.docx -o cisco.html
命令执行完毕后会在当前目录下生成一个“cisco.html
”的网页文件,我们这里是“ D:\tt
”目录。
可以使用”"c:\Program Files\Internet Explorer\iexplore.exe" d:\tt\cisco.html
“调用IE打开此网页文件。
3、 转换带图片的word文件为html
现有一个word文档“mail.docx”,里面有大量的图片,需要将它转换成html格式。
首先使用pandoc命令进行转换:
D:\tt>pandoc Mail.docx -o mail.html
同样使用”"c:\Program Files\Internet Explorer\iexplore.exe" d:\tt\mail.html
“调用IE打开此网页文件。
发现 “ mail.html
”文件中的图片都不能正常显示,查看网页的源代码,图片引用的相对路径“ media
”目录下的图片,但是我们其实是没有“ media
”目录的。
尝试将文件作为压缩文件打开(使用7-zip或者winrar都可以),发现在“ .\word
”下有个“ media
”目录,且里面有很多图片文件。
将“ media
”目录整个目录解压和“ mail.html ”同级,再次调用ie打开“ mail.html ”文件查看,发现图片显示正常。
D:\tt>tree /F
文件夹 PATH 列表
卷序列号为 BA17-9E87
D:.
│ Mail.docx
│ mail.html
│
└─media
image1.png
image10.png
image11.png
image12.png
image13.png
image14.png
image15.png
image16.png
image17.png
image18.png
image19.png
image2.png
……
D:\tt>
<完>