- 博客(3)
- 收藏
- 关注
原创 数据离散化的优点
离散特征的增加和减少都很容易,易于模型的快速迭代稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,可以提升特征之间的关系特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。特征离散化以后,起到了简化了逻辑回.
2020-12-15 22:24:45 818
原创 总结至神经网络
机器学习三要素之间的关系模型机器学习的目的——模型(Model)机器学习训练的过程中所要学习的条件概率分布或者决策函数策略如何构造模型——策略(Strategy)就是使用一种什么样的评价度量模型训练过程中的学习好坏的方法,同时根据这个方法去实施的调整模型的参数,以期望训练的模型将来对未知的数据具有最好的预测准确度算法模型的实现——算法(Algorithm)是指模型的具体计算方法。它基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法去求解这个最优模型
2020-12-02 23:03:05 157
原创 交叉验证的方法汇总
交叉验证的方法留一验证解释:只从可用的数据集中保留一个数据点,并根据其余数据训练模型。此过程对每个数据点进行迭代,比如有n个数据点,就要重复交叉验证n次。例如下图,一共10个数据,就交叉验证十次图示如下:优点适合数据集量级较小因为利用了所有的数据点,因此偏差比较低缺点因为重复执行验证,执行时间比较长因为是数据点进行验证,如果数据点是离群值,那么模型的准确度就会大大受到影响K折交叉验证1.解释:进行多次train_test_split划分
2020-12-01 23:25:29 1741 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人