机器学习：数据清洗和特征选择

最新推荐文章于 2024-01-07 02:10:10 发布

condi1997

最新推荐文章于 2024-01-07 02:10:10 发布

阅读量191

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/condi1997/article/details/105186297

版权

第一部分：数据清洗

一.庄家与赔率

1.概念
庄家：坐庄的人，负责收发金钱；
赔率：表示发生的话可以获得本金的倍数，例如小明下注10两，事件A赔率为3，则发生事件A后，小明可获得30两，净赚20两；
事件发生概率与赔率的关系：P*y=1，P为概率，y为赔率
盈利率=(下注金额-赔付期望)/下注金额
在这里插入图片描述
2.赔率分析
假定事件有A、B两种可能性，概率分别为p1=0.8、p2=0.2，假设一共有a元买A，b元买B，则赔付期望为：

注：因此如果赔率y=1/p，则庄家在期望上不赔不赚，此时赔率成为公平赔率，实际的赔率往往是公平赔率乘以一个小于1的系数，得到真实赔率。

第二部分：特征提取

一.特征选择与噪音

样本中一定存在噪音，需要将数据集分成训练集和测试集，如果模型在机器学习时将噪音当成真实样本中的数据，即学习了噪音，则会造成过拟合，在训练集表现好，而测试集表现不好。可以通过特征选择，使得模型在训练时恰好获得样本的大体分布，而不是对于每一个具体的样本(噪音)都进行学习。

二.数据整理适用范围

例如：汽车数据描述
在这里插入图片描述
对于上述给定的汽车数据及特征，不能直接运用逻辑回归模型，因为对于价格、程度等特征，如果特征用0-3等数字代替，则逻辑回归中的权重乘以特征向量就失去了意义。例如，24岁的人和两个12岁的人是不等价的。所以需要对特征进行区间分类，然后用one-hot编码，虽然增加了特征维度，但是保证了逻辑回归的可行性。也可以直接进行决策树和随机森林分类。

condi1997

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习：数据清洗和特征选择

目录第一部分：数据清洗一.庄家与赔率第一部分：数据清洗一.庄家与赔率1.概念庄家：坐庄的人，负责收发金钱；赔率：表示发生的话可以获得本金的倍数，例如小明下注10两，事件A赔率为3，则发生事件A后，小明可获得30两，净赚20两；事件发生概率与赔率的关系：P*y=1，P为概率，y为赔率盈利率=(下注金额-赔付期望)/下注金额2.赔率分析假定事件有A、B两种可能性，概率分别为p1=0...
复制链接

扫一扫