博客专栏  >  云计算/大数据   >  机器学习

机器学习

因为热爱,所以学习,机器学习

关注
2 已关注
24篇博文
  • 常见的损失函数总结

    损失函数(loss function)用来估量模型的预测值 f(x)f(x) 与真实值 YY 的不一致程度,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组...

    2018-04-13 17:07
    51
  • 机器学习中如何解决样本不均衡的问题?

    很多机器学习算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。举个例子,大部分(假如...

    2018-04-14 15:11
    43
  • 谈一谈交叉熵损失函数

    关于损失函数的概念以及种类特点,可参看博主的博客: 常见的损失函数总结,谈到交叉熵,就不得不提信息熵的概念,同样可参看博主之前的博客:决策树之基 —— ID3 算法,博文中提到了信息熵的相关知识。有...

    5天前 16:31
    10
  • 中位数、众数和均值的关系

    中位数、众数和均值都是描述数据集中趋势的统计量,他们各有特点。例如,对于某种商品的各种售价,中位数处在中间的价格,大于和小于中位数的价格各为一半;众数为众多价格中出现频数最多的那个价格;而均值在大部分...

    2016-01-23 16:35
    3509
  • 粒子群算法解决函数优化问题

    1 选题描述 粒子群算法(particle swarm optimization,PSO)是计算智能领域,除了蚁群算法、鱼群算法之外的一种群体智能地优化算法。该算法最早由Kennedy和Eberhar...

    2015-07-03 13:35
    19051
  • 常用的数量统计量的计算及统计意义

    数量统计量是只适合数量类型数据的统计量,使我们最常见的统计量。笔者之前对资料特征数的计算作了简单地介绍,详情可跳转至 资料特征数的计算,本片博客力求全面和简洁易懂。对于数量类型的数据样本 X1,X2,...

    2017-11-02 20:20
    502
  • 常用的数据标准化方法

    数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的...

    2016-06-13 14:46
    18140
  • 如何通俗易懂地理解皮尔逊相关系数?

    要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为:COV(X,Y)=1n−1∑n1(Xi−X⎯⎯⎯)(Yi−Y...

    2017-11-06 11:45
    2662
  • 机器学习中常见的最优化算法总结

    最优化算法的重要性不言而喻,笔者在本科的时候曾经投入不少精力参加数学建模竞赛,学习到了不少东西,也取得过一些较好的奖项。在数学建模竞赛中,优化问题占了大半江山,由此可见其在科研以及实际项目中的分量。本...

    2018-04-10 16:33
    46
  • 5 分钟带你弄懂 k-means 聚类

    聚类与分类的区别分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。聚类:事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。...

    2017-11-08 16:16
    499
  • 机器学习中,为何经常要对数据归一化?

    机器学习中,为何经常要对数据归一化?原因有二:(1)归一化后加快了梯度下降求最优解的速度;(2)归一化有可能提高精度。 为什么归一化能提高梯度下降法求解最优解的速度? 假定为预测房价的例子,自变量...

    2018-04-07 16:50
    86
  • 关于显著性检验,有你想要的!

    何为显著性检验?显著性检验(significance test)作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。在统计学中,显著性检验是“统计假设检验”(Statistica...

    2017-12-14 14:21
    1080
  • 决策树之基 —— ID3 算法

    决策树用来预测的是一个固定的对象,从根到叶节点的一条特定路线就是一个分类规则,决定这一个分类算法和结果。 决策树的生成算法是从根部开始,输入一系列带有标签分类的示例(向量),从而构造出一系列的决策节...

    2018-01-29 17:53
    77
  • BP 神经网络中的基础算法之一 —— 最小二乘法(LS 算法)

    最小二乘法(LS 算法)是统计分析中最常用的逼近计算的一种算法,其交替计算结果使得最终结果尽可能地逼近真实结果。LS 算法是一种数学优化技术,也是一种机器学习常用算法。它通过最小化误差的平方和寻找数据...

    2018-02-06 16:26
    323
  • BP 神经网络中的基础算法之二 —— 梯度下降算法

    在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法,关于最小二乘法,可参考笔者的上一篇博客 BP 神经网络...

    2018-02-06 21:03
    192
  • 谈一谈正则化

    要理解正则化,首先需要了解过拟合的概念,关于过拟合,笔者在前面的博文中有专门提到,详情可参见博文:过拟合与欠拟合简要总结 以及 如何解决过拟合问题。下面结合 NG 的公开课、网络上资源解读以及自己的一...

    2018-03-17 21:23
    94
  • 总结 Logistic 回归与 Softmax 回归联系与区别

    Logistic 回归与 Softmax 回归是两个基础的分类模型,虽然听名字像是回归模型,实际上并非如此。Logistic 回归,Softmax 回归以及线性回归都是基于线性模型。其实 Softma...

    2018-04-03 13:27
    55
  • 浅谈 SVM

    SVM,全称是 support vector machine,中文名叫支持向量机。SVM 是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 如上图所示,w⃗ \...

    2018-03-25 17:11
    68
  • 对比欧氏距离与余弦相似度

    欧式距离欧氏距离就是我们平常所说的距离,如果是平面上的两个点 A(x1,y1)A(x_1,y_1) 和 B(x2,y2)B(x_2,y_2) ,那么 A 与 B 的欧式距离就是 (x1−x2)2+(y...

    2017-11-07 16:48
    1364
  • 主成分分析(PCA)一次讲个够

    PCA 简介多元统计分析中普遍存在的困难中,有一个困难是多元数据的可视化。matlab 中的 plot 可以显示两个变量之间的关系,plot3 和surf 可以显示三维的不同。但是当有多于3个变量时,...

    2017-11-29 11:31
    4004

深度学习
1912374
开发工具
17103403
Linux
2273134

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部