using Aspose.Words;//要引用这个dll,具体的需要到网上下载
下载地址:http://download.csdn.net/detail/lilinoscar/8235653
是通过Aspose第三方控件读取word中的文字、包括中文、字母、数字等,注意图片无法读取。所以需要因为dll。
#region 获取正文内容
Byte[] wordbytes = GetReadWord();//获取doc文件二进制
var strFileName = Server.MapPath("~/temp/a.doc"); //创建一个a文件
var strhtmlFileName = Server.MapPath("~/temp/b.htm");//创建一个b.html文件
var file = File.OpenWrite(strFileName);
file.Write(wordbytes, 0, wordbytes.Length);//填充文件流
file.Close();
file.Dispose();
Aspose.Words.Document d = new Aspose.Words.Document(strFileName);
d.Save(strhtmlFileName, SaveFormat.Html);
var htmlCode = File.ReadAllText(strhtmlFileName, Encoding.GetEncoding("GB2312"));//读取文件中的文字,就是我们获取的字符串
File.Delete(strFileName);//删除临时文件
File.Delete(strhtmlFileName);<span style="font-family: Arial, Helvetica, sans-serif;">//删除临时文件</span>
#endregion
htmlCode 字段就是获取的内容字符串