《集体智慧编程》第8章 构建价格模型 个人笔记

第8章 构建价格模型

8.1 K-最近邻算法

本书使用KNN进行回归,对所有样本点和待预测点的距离进行升序排序,取top k,这个k个样本的目标值的均值作为预测点的预测值。
可以为近邻点分配权重,距离越近权重越大,可以通过反函数、减法函数、高斯函数等求权重,然后对top k样本计算加权平均作为预测值。

8.2 交叉验证

交叉验证是将数据拆分成训练集与测试集的一系列技术的统称。这采用多次hold-out cv。

8.3 不同类型的变量

对于不同类型的变量,其变量本身的重要性大小就不一样,比如有些变量特别大,使用欧式距离计算时这些大变量容易掩盖其他一些变量的影响。所以这里可采取按比例缩放的方法,最简单的形式是将每个维度上的数值乘以一个在该维度上的常量。

常采用归一化预处理数据

本章比较简单,唯一有意思的地方可能就是在于它用knn进行了回归,其他书基本都是在做分类。介绍了几种knn回归的trick,可以借鉴

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值