我有一个遗留的应用程序刚开始不正常,无论什么原因,我不知道。它生成一堆HTML,由ActivePDF转换为PDF报告。
过程如下:
>从一个DB中拉取一个HTML模板,其中包含要替换的令牌(例如“〜CompanyName〜”,“〜CustomerName〜”等)
>用真实数据替换令牌
>使用一个简单的regex函数整理HTML,属性格式化HTML标记属性值(确保引号等等,因为ActivePDF的呈现引擎讨厌属性值周围的单引号)
>将HTML发送给创建PDF的Web服务。
在那个混乱中,HTML模板(& nbsp;)中的不间断空格被编码为ISO-8859-1,因此在浏览器中查看文档时,它们不正确地显示为“” FireFox)。这些非UTF8字符上的ActivePDF pukes。
我的问题:因为我不知道问题来自哪里,没有时间调查它,是否有一个简单的方法重新编码或查找和替换坏字符?我试过发送它通过这个小功能我投在一起,但它把它变成gobbledegook不改变任何东西。
Private Shared Function ConvertToUTF8(ByVal html As String) As String
Dim isoEncoding As Encoding = Encoding.GetEncoding("iso-8859-1")
Dim source As Byte() = isoEncoding.GetBytes(html)
Return Encoding.UTF8.GetString(Encoding.Convert(isoEncoding, Encoding.UTF8, source))
End Function
有任何想法吗?
编辑:
我现在得到这个,虽然它几乎不是一个好的解决方案:
Private Shared Function ReplaceNonASCIIChars(ByVal html As String) As String
Return Regex.Replace(html, "[^\u0000-\u007F]", " ")
End Function