word文档转html怎么设置utf-8,c#-将Word保存为UTF-8编码的HTML

我正在编写一些C#VSTO代码,该代码读取Microsoft Word文档并将其保存到“过滤的HTML”中.当我在通用Word文档上执行此功能时,html文件的输出使用Windows Charset,如此处所示:

如果打开文档并转到“文件”->“选项”->“高级”->“ Web选项”,则可以选择UTF8,并且生成的经过过滤的html文档输出如下所示:

我想编写将任何Word文档保存到使用utf-8过滤的html的c#代码.经过研究后,我发现有人说“ SaveAs2”功能不起作用(即使Microsoft将其记录为功能).这意味着此代码对我不起作用:

doc.SaveAs2("C:\Temp\Test.htm", MsWord.WdSaveFormat.wdFormatFilteredHTML, Encoding: "65001");

(注意:我尝试将65001用引号引起来,而没有引号.

接下来,我继续设置文档的网络选项,如下所示:

doc = app.Documents.Open("C:\Temp\Test.docx");

doc.WebOptions.Encoding = Microsoft.Office.Core.MsoEncoding.msoEncodingUTF8;

doc.SaveAs2(destFile, MsWord.WdSaveFormat.wdFormatFilteredHTML);

据我所知,上面的代码执行与我手动打开文件,转到文件->选项…,设置为UTF-8并将文件保存到过滤的html相同的功能,但输出仍然看起来像这样:

有没有一种方法可以强制Microsoft Word将文件输出到UTF-8,而不必先手动配置文档?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值