C#获取网页源码，自动判断网页字符集编码

最新推荐文章于 2019-03-02 01:15:00 发布

李文辉

最新推荐文章于 2019-03-02 01:15:00 发布

阅读量790

点赞数

分类专栏： SEO-外链 .net SEO-必备工具文章标签： c# 正则表达式 string stream null internet

本文链接：https://blog.csdn.net/hnliwh/article/details/7084590

版权

解决方案：先采用系统默认的编码从stream里得到源码，再使用正则表达式获取源码中的[获取网页字符编码描述信息]，这个信息，一般来说，网页里都会有的，在网页源码的<head>里，类似这样的代码：<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />（其实不一样完全这样，有些不规范的，没有双引号，或者最后面没有/闭合，所以，正则表达式得考虑周全些），从这个代码里来获取编码信息，再判断系统当前的默认编码是否和这个一样，如果不同，再使用网页中取到的编码来重新从stream里解释取得网页源码。

 /// <summary>
        /// C#获取网页源码，自动判断网页字符集编码
        /// http://www.taobaonzpd.com/ | http://www.anmoqi10.com/ | http://www.hainandh.com/ | http://www.tb10go.com/ | http://www.tbshc.com/
        /// </summary>
        /// <param name="url">url是要访问的网站地址</param>
        /// <param name="charSet">charSet是目标网页的编码，如果传入的是null或者""，那就自动分析网页的编码</param>
        /// <returns></returns>
        public stat

最低0.47元/天解锁文章

李文辉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
C#获取网页源码，自动判断网页字符集编码

解决方案：先采用系统默认的编码从stream里得到源码，再使用正则表达式获取源码中的[获取网页字符编码描述信息]，这个信息，一般来说，网页里都会有的，在网页源码的里，类似这样的代码：（其实不一样完全这样，有些不规范的，没有双引号，或者最后面没有/闭合，所以，正则表达式得考虑周全些），从这个代码里来获取编码信息，再判断系统当前的默认编码是否和这个一样，如果不同，再使用网页中取到的编码来重新从st
复制链接

扫一扫