在获取网页时半角全角字符混合的问题

   在获取网页数据时,遇到一个问题。获取的数据在解析成中文时由于字符中包含半角和全角的字符,总是不能全部显示正确。一开始总想有什么解析方法可以用来处理这种数据。网页本身是utf-8格式,按理来说不应该有这个问题。后来发现是Dotnet中WebClient类默认会将中文转成gb2312。此时与原始的utf-8的数据相比,数据已有丢失,所以我判断再怎么恢复也不行(但不确定)。那WebClient有该属性配置么?果然!将Encoding属性设为utf-8就从头上解决了这个问题。回想之前在用扫码仪获取二维码中文时也遇到这个问题,也许也有相应的解决方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值