2014年03月_小飞鱼露

03月

原创 "NaN" 的困扰

NaN ("Not a Number") 是一种特殊的浮点类型，IEEE754在1985年的时候引入，用于定义一些未定义的浮点运算产生的结果。NaN 不同与 inf or -inf，它并非是一种具体的浮点数值，它一种未定义的浮点操作所产生的结果，可以理解成是另外一种对象，目前在很多语言里面都引入了该定义，如 python, matlab 等等。当然，在计算的时候，通常很少会碰见 NaN，但一旦出现

2014-03-24 10:11:43 3272

原创当我们的经验无法适应新环境的时候该怎么办？ Covariate Shift

前几天偶然看到 Alex Smola (CMU ML Prof) 的一篇 " Real simple covariate shift correction" 博文，论述在机器学习领域一个非常容易被忽略的问题， “Covariate Shift”。最为直观的解释就是当你的训练集的样本分布和测试集的样本分布一致的时候，你训练得到的模型是无法有很好的泛化 (Generalization) 能力的。假

2014-03-02 09:22:18 5980

原创正则化的最小二乘法

在单元 (unimodal) 目标变量的线性模型中，MLE (Maximum likelihood) 和 Least Squares (最小二乘法) 是常用的两种估计模型参数向量 W 的解法。他们都有个共同点，求解得到的参数向量 W 能够保证估计的目标值和观测得到的目标值之间的误差最小。但是单纯的考虑误差最小化得到的模型会有过拟合现象，也就是预测效果会很差。为了解决这个问题，在目标函数中往往都会考

2014-03-01 14:35:12 23385

Mining of massive dataset

斯坦福的数据挖掘大牛 Jure 的公开课程用的就是这本书

2012-12-22

Learning from data

这是一本跟机器学习和数据挖掘相关的基础书，上面讲述了很多基础概念，已经应用。

2012-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人