常见名词解释:
模型融合:同时训练多个模型,用一定办法将其融合在一起
弱学习器:比瞎猜强一点的
强学习器:精确率达90%以上
过拟合:个人理解,训练集中有公共特点a和私有特点b,我只要学会处理a就可以处理这类问题了,但是我错误的把b也给学会了,学多了,导致处理训练集的时候拟合的很好,但是处理这一类问题的时候表现不佳。解决方法:数据处理(特征工程)
欠拟合:没训练到位
泛化能力:是否可以用在新的数据集上
正则化:防止过拟合
长尾分布:尾巴很长的一种分布
BOX-COX转换:把不满足正态分布的转换成正态分布
3-sigma原理:将异常值处理成平均值
归一化:将数据集映射到[0,1]之间
标准化:将数据集转换成均值为0,标准差为1
幂律分布:分布函数是幂函数
训练集:课上习题,用于学习
验证集:课后作业,用于验证巩固(帮助调参)
测试集:期末考试:测试成功
监督学习:训练集中包含正确答案
无监督学习:不包含正确答案
损失函数(代价函数):单个样本在线性回归中的误差
特征筛选:可以得到一个排名,确定每个属性的重要程度
支持向量机:监督学习的二元分类的分类器?
数据预处理包含:数据探索,数据清洗,特征预处理
特征预处理包含:数值型特征无量纲化,数值型特征分箱,统计变换,类别特征编码
模型参数:训练得到的参数
超参数:训练之前人为设定的参数