英语音标乱码处理办法

近日,碰到要抓取网页中的音标,但在VB中取得网页源代码后发现音标部分始终无法正常显示,一直是乱码。通过近2天的努力,终于找到了一种切实可行的方案。

我们都知道,计算机中字符(ASCII字符、中文、希腊字母等)的表示均可转换为二进制,而每个字符它在计算机中的二进制值又是固定的,也就是说,每个字符也可以用它的十进制值来代替,而网页中的转义字符正是基于这点的。

转义字符串(Escape Sequence),即字符实体(Character Entity)分成三部分:第一部分是一个&符号,英文叫ampersand;第二部分是实体(Entity)名字或者是#加上实体(Entity)编号;第三部分是一个分号。

这里的实体编号其实就是字符的二进制值,每个字符所表示的这个值是唯一的,用它我们就可以表示出任何想要展现的字符。

现在问题就出来了,怎么知道字符的这个二进制值呢?其实在语言设计者们早就为我们准备了这样的函数,如在VB中有asc和ascw,当不是asc字符时,用ascw函数可返回字符串或字符的二进制值,至此,我们就基本完成了乱码的处理,剩下的就是显示的问题,在这里,音标若无法正常显示,可为其加上标签<font face="Lucida Sans Unicode">,如此一来,问题解决。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值