数据取对数运算的意义

转载 2015年07月08日 00:43:05

平时在一些数据处理中,经常会把原始数据取对数后进一步处理。

之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

1. 缩小数据的绝对数值,方便计算。

例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

 

2. 取对数后,可以将乘法计算转换称加法计算。

 

3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。

 

4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

5. 且所得到的数据易消除异方差问题。

6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。

 

当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

js 特效 html 特效 对数运算

  • 2011年06月14日 00:28
  • 8KB
  • 下载

2.2.1对数及其运算1

  • 2008年01月19日 17:28
  • 247KB
  • 下载

如何实现对数ln运算?

好朋友Z说他们期末得设计一个计算器,对数ln的运算挺麻烦的。 我想,这不是就是泰勒展开的事吗? 泰勒展开1.0 立刻想到了这个嘛: 然而,跑一下程序的结果是这样的: 1.1 ...

数据规模对数组的读取效率的影响——顺序读取和随机读取

这篇文章要说明的是虽然数组可以做到随机读取,一般情况下

UVA 202 有理数化为循环小数求循环节 UVA 11809 对数处理数据

UVA 202                               题目的大致意思是给出有理数的分子和分母,要你找到化为循环小数后的循环节。                          ...

各种数值计算机内存的存储规则、补码计算、内存数据位扩展和具体意义、关于位运算

//关于数据在计算机内存中的存储:无论什么数值,也无论这个数值是用什么进制表示,计算机存储的都是这个数值的补码。     //如果表示这个数值的时候,前面有+号或者没有加符号,则认为是正数,这个时候...
  • gukesdo
  • gukesdo
  • 2012年04月09日 20:51
  • 2338

数字图像处理取对数代码

  • 2011年04月21日 13:32
  • 137KB
  • 下载

Data Structures and algorithm analysis—1.2.1&1.2.2&1.2.3 exponents&logarithms&series(数据结构—指数,对数,级数)

1.2. Mathematics Review 1.2.数学复习       This section lists some of the basic formulas you need to mem...

uva1639(数学期望,利用对数减少浮点类型数据的精度损失方法)

/* translation: 两个盒子各有n个糖果,每天随机选一个盒子(概率为p,1-p)并且吃掉里面的一颗糖果。 知道有一天打开盒子时发现是空的,求此时另外一个盒子里面糖果的个数的数学期望? ...

数据结构-从归并排序到数组的逆序对数(微软面试题)

归并排序 归并排序 与快速排序算法一样,归并排序也是基于分治法的。 就是将待排序的序列分成两个长度相同的序列,然后再对两个子序列拆分,一直到只剩下一个元素的子序列,为每个子序列排序,然后再将它们合...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据取对数运算的意义
举报原因:
原因补充:

(最多只允许输入30个字)