linux 空格变问号,遭遇UTF-8编码转换后,空格变成问号的问题

前些日子单位网站改版要求我将一个文学类子站转换一下后台,该子站由“翔宇”CMS系统生成,由于数据量不是很大,我便采用了简便的采集办法来转移数据,在转换过程中遭遇到UTF-8编码下的特殊空格问题,让我费了一番周折。

该子站页面内容为UTF-8编码,采集过来以后需要转换成GB2312编码,然后再写成静态文件。从设置采集规则到正式采集都非常顺利,页面内容被完整地抓取过来并存入数据库,不过内容中出现很多“问号”,这些“问号”就是UTF-8编码下的空格,如果不处理这些“问号”生成静态文件时会提示错误。我尝试用

Replace(content,"?"," ")

Replace(content,"?"," ")

来进行替换,发现替换不成功,可见转换后的“?”号不是普通的“ ”问号。我尝试用left函数单独取出这个字符,然后再转成ASCII码看看,发现的转换后的码值是“63”,而十进制的“63”不就是常规的“?”号吗?看来这个字符还不能进行ASCII转码,转换过就无法再还原回去了!

为了解决这个问题我查找了些资料,终于发现了问题的原因:在UTF-8编码里面存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候表现为一个半角空格,跟一般的半角空格(ASCII 0x20)不同的是它的宽度不会被压缩,所以排版中常能用到它。但是GB2312、Unicode之类并没有这样的字符,所以转换后会显示为“?”号,只是显示为问号而不是真正的问号,所以无法被替换!

既然通过采集已将内容转换成GB2312编码了,又无法使用常规的办法替换,网站迁移工作顿时陷入僵局。如果将“0xC2 0xA0”转换为GB2312编码的字符,然后再拿这个字符去替换,应该可以解决问题。说实在的,好久都没有搞ASP了,很多函数也都忘了,一时也找不到这样的转换函数,最后采用了一个笨法子解决了这个问题:

处理过程是这样的:

在正式采集之间,先临时采集一个页面,取出其中的“?”空格这个字符,并将该字符存入“缓存”中,然后就开始正式的采集工作了,每采到一个页面就拿“缓存”中的字符进行全文替换,替换成常规的“ ”空格。速度稍微慢一点但效果很好!

在写这篇文章之前我还在考虑这个问题,也可能是水平有限吧,转换函数始终搞不定,如果哪位高手看到本文不妨告之一二,谢谢!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值