研究对象:一个数据集。
输入与输出:
1)因果关系角度:
由于输入与输出具有因果关系,所以数据集中哪些列是因,哪些是果。换句话说,要研究 一个数据集的输入和输出 存在么,是什么。
随机变量:
1)不确定性;
现在桌子上骰子的上面的值。虽然值未知,但已确定,该值不是随机变量。
2)随机性;
正在加热还未沸腾的水,沸腾时的温度。首先该值满足不确定性,但是该值不具有随机性,因为该值是100。所以该值不是随机变量。
不确定性,更像是一种场景约束,一种对所研究问题基本的假设。即便值已知,但也可以假设在值未知的场景下,将该值作为随机变量进行研究。
数据集:
1)采样准确性
如果 有个特征列,采集到的数据总是 =真实值+1。那么虽然数据不准确,但是没有影响,因为待预测样本也是采用“错误”的方式采集,所以在错误的“度量”单位下没问题。
这启示我们,可以对数据集去量纲。
但是只是部分样本(可能是确定规律的)=真实值+1。其他样本不是,那么对于这个特征 整体在模型中,可能得不到更合理的信息。或者说这两种数据分布不同,不属于同一个模型,不是独立同分布产生。
2)数据分布
假设采样不存在失误,或者说样本本身信息是确定事件,那么
训练样本,就是尽量得到一种数据分布,使得,和原有的数据分布相同。这称之为“归纳”。
一方面,