我知道有一个关于它的几个线程它说简单地使用如何从word内容中删除html标签?
Regex.Replace(input, "<.>", String.Empty);
,但我不能在写在Word文档文本中使用它。 我的代码是这样的:
Microsoft.Office.Interop.Word.Document wBelge = oWord.Documents.Add(ref oMissing,
ref oMissing, ref oMissing, ref oMissing);
Microsoft.Office.Interop.Word.Paragraph paragraf2;
paragraf2 = wBelge.Paragraphs.Add(ref oMissing);
paragraf2.Range.Text ="some long text";
我可以查找和替换样改变
Word.Find findObject = oWord.Selection.Find;
findObject.ClearFormatting();
findObject.Text = "";
findObject.Replacement.Text = "";
findObject.Replacement.ClearFormatting();
object replaceAllc = Word.WdReplace.wdReplaceAll;
findObject.Execute(ref oMissing, ref oMissing, ref oMissing, ref oMissing, ref oMissing,
ref oMissing, ref oMissing, ref oMissing, ref oMissing, ref oMissing,
ref replaceAllc, ref oMissing, ref oMissing, ref oMissing, ref oMissing);
我需要为每一个HTML标记做到这一点?
2014-06-29
ruqo
+0
如果正则表达式失败(我不明白它为什么会失败,你能说明你是如何使用它的?),你可以创建一个所有标签的列表,并使用for循环删除所有标签。 –
+0
@Transcendent,他正在处理一个Word.Document对象,而不是纯文本字符串... –
+0
@elgonzo:是的,但这些段落可以转换为基本字符串,然后正则表达式的作品!我不是吗? –