解决中文乱码问题:获取任意网页代码

我们在使用C#获取某个网页代码时,经常会遇到中文乱字符的问题:

            WebRequest request = WebRequest.Create(textBox2.Text);
            WebResponse response = null;
            try
            {
                response = request.GetResponse();
            }
            catch (Exception exc)
            {

            }

            Stream resStream = response.GetResponseStream();
            StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default); //这里使用了Encoding.Default,但有时还是免不了出现乱码!
            string tempCode = sr.ReadToEnd();
            resStream.Close();
            sr.Close();


做了改进:


        static string GetHtml(string url, Encoding encoding)

        {
            byte[] buf = new WebClient().DownloadData(url);
            if (encoding != null) return encoding.GetString(buf);

            string html = Encoding.UTF8.GetString(buf);
            encoding = GetEncoding(html);
            if (encoding == null || encoding == Encoding.UTF8) return html;

            return encoding.GetString(buf);
        }

        // 根据网页的HTML内容提取网页的Encoding
        static Encoding GetEncoding(string html)
        {
            string pattern = @"(?i)\bcharset=(?<charset>[-a-zA-Z_0-9]+)";
            string charset = Regex.Match(html, pattern).Groups["charset"].Value;
            try { return Encoding.GetEncoding(charset); }
            catch (ArgumentException) { return null; }

        }


//调用方法:

string url="http://www.fhcy88.com";

string tempCode = GetHtml(url, null);  //不知道编码时,第二个参数用null
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值