2009-07-15 08:52
学习过英语的人,都做过“英译汉”或“汉译英”吧,我也做过。我每每都发现,一段英文翻译成中文后,或者一段中文翻译成英文后,中文的段落所占的篇幅,总比英文段落占的篇幅要短的多。这是为什么呢?请看下面的分析。
首先要知道,什么是信息量?信息量是指它消除的不确定性的一种量度。一个事件出现的概率越小,不确定性就越多,它的出现所携带的信息量就越大,反之则少。比如,你告诉我一个地球人都知道的事情,对我来说,一定用都没有,因为它对消除不确定性没有一点用处,它的信息量是0。
我们可以假设26个英文字母是等概率出现的,那么两个英文字母出现的概率就是:(1/26)*(1/26)=1/676,它们所携带的信息量为:-log(1/676)=log(676)=2.83。而常用的汉字大约有3000个,我们也假设它是等概率出现的,一个汉字出现的概率就是1/3000,它携带的信息量为:-log(1/3000)=log(3000)=3.48。很显然,一个汉字比两个字母所携带的信息量要大的多。
对于一篇文章而言,还可以用“信息熵”去描述它。熵是指整个系统的信息量。很明显,一篇中文的信息熵,比一篇英文的信息熵要大的多。熵越大,说明系统越杂乱,对一篇文章来说,它越杂乱,就越难理解。难理解,就难掌握,就难学。
注:这里我故意用一个汉字,与两个英文字母作比较,因为用unicode编码表示的话,一个汉字占两个字节,两个英文字母也占两个字节。另外,在排版上,如果一个汉字是16×16点阵的话,通常等宽的英文字母是8×16的。所以,从编码和排版角度考虑,一个汉字应该与两个英文字母去作比较。
首先要知道,什么是信息量?信息量是指它消除的不确定性的一种量度。一个事件出现的概率越小,不确定性就越多,它的出现所携带的信息量就越大,反之则少。比如,你告诉我一个地球人都知道的事情,对我来说,一定用都没有,因为它对消除不确定性没有一点用处,它的信息量是0。
我们可以假设26个英文字母是等概率出现的,那么两个英文字母出现的概率就是:(1/26)*(1/26)=1/676,它们所携带的信息量为:-log(1/676)=log(676)=2.83。而常用的汉字大约有3000个,我们也假设它是等概率出现的,一个汉字出现的概率就是1/3000,它携带的信息量为:-log(1/3000)=log(3000)=3.48。很显然,一个汉字比两个字母所携带的信息量要大的多。
对于一篇文章而言,还可以用“信息熵”去描述它。熵是指整个系统的信息量。很明显,一篇中文的信息熵,比一篇英文的信息熵要大的多。熵越大,说明系统越杂乱,对一篇文章来说,它越杂乱,就越难理解。难理解,就难掌握,就难学。
注:这里我故意用一个汉字,与两个英文字母作比较,因为用unicode编码表示的话,一个汉字占两个字节,两个英文字母也占两个字节。另外,在排版上,如果一个汉字是16×16点阵的话,通常等宽的英文字母是8×16的。所以,从编码和排版角度考虑,一个汉字应该与两个英文字母去作比较。