导出Ueditor富文本带html标签内容为word文件
工作中,遇到需要将富文本编辑的文章,公告,或者知识点,导出为word文件。
现在给出一套方案,希望能帮到需要的伙伴们。
导出为word的关键:Jsoup,参考:Jsoup
我们先来看一个图,这是导出后的word文件:
大家可以发现,用NotePad打开word文件后,其实word就是一个完整的html,注意图片的路径:其实就是本地的路径(相对远程导出来说,也是一样的,对于服务器,图片也应该是放在服务器本地下的某路径)。
那么知道word实际就是由html组成的以后,那么接下来就好理解了。
请大家自行去了解Jsoup。
jsoup是一款Java的HTML解析器,主要用来对HTML解析。
这里贴出代码,也是本文最关键的部分:
String str = " <!--[if gte mso 9]><xml><w:WordDocument><w:View>Print</w:View><w:TrackMoves>false</w:TrackMoves><w:TrackFormatting/><w:ValidateAgainstSchemas/><w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid><w:IgnoreMixedContent>false</w:IgnoreMixedContent><w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText><w:DoNotPromoteQF/><w:LidThemeOther>EN-US</w:LidThemeOther><w:LidThemeAsian>ZH-CN</w:LidThemeAsian><w:LidThemeComplexScript>X-NONE</w:LidThemeComplexScript><w:Compatibility><w:BreakWrappedTables/><w:SnapToGridInCell/><w:WrapTextWithPunct/><w:UseAsianBreakRules/><w:DontGrowAutofit/><w:SplitPgBreakAndParaMark/><w:DontVertAlignCellWithSp/><w:DontBreakConstrainedForcedTables/><w:DontVertAlignInTxbx/><w:Word11KerningPa