机器学习
文章平均质量分 62
FigthingForADream
这个作者很懒,什么都没留下…
展开
-
常见机器学习算法的优缺点
朴素贝叶斯优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。缺点: 对输入数据的表达形式很敏感。决策树优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征;缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象);Logistic回归优点: 1、实现简单; 2、分类时计算量非常小,速度很快,存储资源低;缺点: 1、容易欠拟合,一般准确度...原创 2018-06-04 09:12:25 · 751 阅读 · 0 评论 -
数据标准化和归一化
归一化normalization:称为线性函数归一化,归一化到【0, 1】范围内,当然也包括非线性函数归一化 标准化standardization: 又被称为0均值归一化,归一化到0均值,方差为1的数据集中,公式中符号代表原始数据集的方差和均值 两者本质都是一种线性变换 区别是归一化仅有极值决定,将数据压缩到【0,1】范围内,而标准化则是动态的,弹性的,和样本的整体分布有关 这两种归一化的...原创 2018-08-05 14:19:34 · 2158 阅读 · 0 评论 -
特征离散化
为什么需要离散化 对于很多实际问题(如广告点击率预测),往往特征非常多,这时候时间约束通常不允许我们使用很复杂的非线性分类器。这也是为什么算法发展这么多年,广告点击率预测最常用的方法还是LR模型。 在实际应用中,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,除了一些加快计算等好处,还可以引入非线性特性,也可以很方便的做交叉特征。离散特征的增...原创 2018-08-05 17:01:25 · 2032 阅读 · 0 评论