通常数据离散程度(或偏态分布)比较大,下意识就会想到取个对数,这样可以把值域给压缩了。
这么处理下,数据差异不那么明显了,因为取对数不改变单调性,只是做了一个缩放,所以不会改变数据的性质。
有时候做ANOVA方差分析的时候又要满足三大特性,随机独立,正态,方差齐,
一看数据不正态了,方差不齐了,赶紧取个对数先,这样真的好吗?
例如有论文写到某些情况下,比如数据不近似服从对数正态分布,使用广义估计方程(GEE)方法来处理数据,而不是取对数
http://www.doc88.com/p-7794204427017.html
所以有些时候不是取个对数就解决问题的,当然对数大法确实很有用,
比如,FASTQ文件中,RNA序列的质量衡量也采用了log变换,把类似于0.01的P值装成一个字母单值
又比如,在信息检索中,IDF(Inverse document frequency)逆文本频率指数,意思是key word关键词越少出现权重越大,经常出现说明他不重要,权重低,所谓物以稀为贵嘛
IDF值=log(D/Dw)其中D是全部文件数,这里的文件可以是网页,也可以是文章,也可以是压缩后的图像信息,原理是一样的。
D总数是个定值,Dw越小,IDF越大,比如说求相关性计算就是简单的加法了, TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。
此外,取对数可以把乘法计算转换称加法计算,举个例子,在logistic回归里,很关键的一步就是先将概率密度函数乘起来,再取对数,最后求参数
从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,
例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
最后,对数可以减弱异方差性,注意是减弱,不是消除。。