习题思考
1. 协变量偏移、标签偏移、概念偏移等环境因素
协变量偏移
协变量变化是因为问题的根源在于特征分布的变化(即协变量的变化)。数学上,可以认为P(x)改变了,但P(y∣x)保持不变。尽管它的有用性并不局限于此,当我们认为x导致y时,协变量移位通常是正确的假设。
标签偏移
导致偏移的是标签P(y)上的边缘分布的变化,但类条件分布是不变的P(x∣y)时,就会出现相反的问题。当我们认为y导致x时,标签偏移是一个合理的假设。
概念偏移
在概念转换中,即标签本身的定义发生变化的情况。
对于本习题,即如果数据量很少,少到测试集中存在训练集中未包含的标签,就会发生标签偏移。也应该认识到概念偏移可以根据其缓慢变化的特点缓解。
2. 语言模型及采样方法
随机采样
每次从数据里随机采样一个小批量。其中批量大小batch_size是每个小批量的样本数,num_steps是每个样本所包含的时间步数。 在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
相邻采样
在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻。
此题,训练数据中总共有11个样本,而批量大小为2,根据相邻采样的特点划分,因此数据集会被拆分成2段,每段包含5个样本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9],而时间步数为2,所以第二个批量为[2, 3]和[7, 8]。
问题分析
明确目标变量即房价,观察分析每个特征对于目标变量的重要程度,研究其他(自)变量对于目标变量的影响以及自变量与因变量之间的关系。
模型训练步骤
- 获取数据集
- 数据预处理
- 模型设计
- 模型验证和模型调整(调参)
- 模型预测及提交
个人对自变量的思考
房子面积:面积大小是房价的首要因素,面积越大肯定售价越高。
房子位置:房子的坐标位置,市区房价显然高于郊区。
公共设施:公共设施约齐全房价越高,基础设施的搭配同样决定房价高低。
建造年份:房龄也是影响房价的一个因素。