彻底解决页面文字编码乱码问题

最新推荐文章于 2024-01-18 01:20:21 发布

CodeProject-Jerry

最新推荐文章于 2024-01-18 01:20:21 发布

阅读量7.9k

点赞数

分类专栏： C/C++(Windows) C#/.Net 文章标签： string webform javascript html function actionscript

本文链接：https://blog.csdn.net/wangjia184/article/details/4728318

版权

C/C++(Windows) 同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

C#/.Net

12 篇文章 0 订阅

订阅专栏

在HTML页面中、Javascript脚本中、以及XML数据传输中，因为编码导致的问题不计其数。

本文提供一种方法，通过将字符串编码成Unicode格式，保证数据在展示和传输过程中万无一失。无论客户端浏览器如何改变编码，页面上的编码都不会乱码。

对于HTML/XML,采用 &# + 十位Unicode码 + ; 的形式格式化字符。

对于JS,采用 \u + 4位Unicode码 来格式化字符串.

示例采用C#编写，使用了中文、俄文、韩文、日文来展示。对于PHP,文章末尾将会提到。

首先，有2个String的扩展方法

using System.Text.RegularExpressions; namespace XXOO { /// <summary> /// 扩展方法，提供Html编码和脚本编码 /// </summary> public static class StringExtension { private static string GetHtmlEncodedStr(Match m) { string x = m.ToString(); return string.Format("&#{0};", (int)x[0]); } /// <summary> /// 将字符串转换为HTML编码格式 /// </summary> /// <param name="text">字符串</param> /// <returns>输出形如：中文丰厚警</returns> public static string HtmlEncode( this string text ) { return Regex.Replace(text , "([^//x00-//x7F]|&|///"|//<|//>|')" , new MatchEvaluator(GetHtmlEncodedStr) , RegexOptions.ECMAScript | RegexOptions.Compiled ); } private static string GetScriptEncodedStr(Match m) { string x = m.ToString(); return string.Format("//u{0:X4}", (int)x[0]); } /// <summary> /// 将字符串编码成Unicode格式如：/uXXXX /// </summary> /// <param name="text">字符串</param> /// <returns>输出形如：/u4E2D/u6587/u4E30/u539A/u8B66/u65B9</returns> public static string ScriptEncode( this string text ) { return Regex.Replace(text , "([^//x00-//x7F]|&|///"|'|//<|//>|//n|//r|//t)" , new MatchEvaluator(GetScriptEncodedStr) , RegexOptions.ECMAScript | RegexOptions.Compiled ); } }

它提供了2个方法，给测试页面使用。

测试页面(ASP.Net)

    /// <summary>
    /// Html Encode string, support all charactoers in the world
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    public static string SafeHtmlEncode(this string str)
    {
        if (string.IsNullOrEmpty(str)) return string.Empty;
        return Regex.Replace(str
                    , "([^\\x00-\\x7F]|&|\\\"|\\<|\\>|'|\\n|\\r|\\t)"
                    , new MatchEvaluator(delegate(Match m) { string x = m.ToString(); return string.Format("&#{0};", (int)x[0]); })
                    , RegexOptions.ECMAScript | RegexOptions.Compiled
                    );
    }

    /// <summary>
    /// Html Encode string, support all charactoers in the world
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    public static string HtmlEncodeSpecialCharactors(this string str)
    {
        if (string.IsNullOrEmpty(str)) return string.Empty;
        return Regex.Replace(str
                    , "[^\\x00-\\x7F]"
                    , new MatchEvaluator(delegate(Match m) { string x = m.ToString(); return string.Format("&#{0};", (int)x[0]); })
                    , RegexOptions.ECMAScript | RegexOptions.Compiled
                    );
    }

测试页面代码：

using XXOO; namespace WebApplication1 { public partial class WebForm1 : System.Web.UI.Page { protected void Page_Load(object sender, EventArgs e) { var str = @"中文丰厚警方过后发达看见发的话该快发动机后购房贷款好 Китайское посольство в Ираке и Багдаде отделение 이라크에서 중국 대사관과 알의 바그다드 지사 - 만수르 호텔 イラクでの大使館やアルのバグダッド支局-マンスールホテル 1234567890!@#$%^&*()<>""'/|}{][:; "; pre.InnerHtml = str.HtmlEncode(); HtmlGenericControl control = new HtmlGenericControl("script"); control.Attributes["language"] = "javascript"; control.Attributes["type"] = "text/javascript"; control.InnerHtml = string.Format("alert(/"{0}/");", str.ScriptEncode()); placeHolder.Controls.Add(control); } } }

运行后得到的HTML:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" > <head><title> </title></head> <body> <form name="form1" method="post" action="WebForm1.aspx" id="form1"> <pre id="pre">中文丰厚警方过后发达看见发的话该快发动机后购房贷款好 Китайское посольство в Ираке и Багдаде отделение 이라크에서 중국 대사관과 알의 바그다드 지사 - 만수르 호텔 イラクでの大使館やアルのバグダッド支局-マンスールホテル 1234567890!@#$%^&*()<>"'\|}{][:; </pre> <mce:script language="javascript" type="text/javascript"></mce:script> </form> </body> </html>

这样，不管浏览器采用何种编码，页面都不会出现乱码。

==============================================

PHP

PHP的情况就复杂一点，需要考虑mysql的编码。这些姑且不论。

下面给出一点示例，将GBK进行HTML编码。仅作参考：

然后通过XML返回，这样就能够彻底杜绝乱码。

echo "<?xml version=/"1.0/" encoding=/"utf-8/"?>/n"; echo "<result>"; echo "<success>". ($success ? 1 : 0) ."</success>"; echo "<message>" . htmlEncode($message) . "</message>"; if( $success ) { echo "<nickname>" . htmlEncode($nickname) . "</nickname>"; echo "<userId>".$userId."</userId>"; echo "<siteId>".$siteId."</siteId>"; echo "<isTeacher>". ($isTeacher ? 1 : 0) ."</isTeacher>"; echo "<ipAddress>" . htmlEncode($ipAddress) . "</ipAddress>"; } echo "</result>";

补充Javascript和ActionScript：

private function htmlEncode(text:String) : String { var reg : RegExp = /[^/x00-/x7f]|&|/"|/<|/>/g; var encodeFun : Function = function encodeFun(...args) : String { return "&#" + String(args[0]).charCodeAt(0).toString() + ";"; }; return text.replace( reg, encodeFun); }