基础数学
hrbeuwhw
这个作者很懒,什么都没留下…
展开
-
方差,协方差、标准差,与其意义
协方差的意义和计算公式学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,1转载 2018-01-05 14:07:40 · 383 阅读 · 0 评论 -
伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布、连续分布(正态分布)、大数定理、中心极限定理、贝叶斯理论
机器学习中常遇到关于各种分布的问题,不过这些知识都已经忘得差不多了,就搜了点资料,详细讲解下伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布 ,用于后期回顾。 ...转载 2018-03-14 22:06:16 · 842 阅读 · 0 评论 -
Logistic Regression(逻辑回归)原理及公式推导
版权声明:本文为原创文章:http://blog.csdn.net/programmer_wei/article/details/52072939Logistic Regression(逻辑回归)是机器学习中一个非常非常常见的模型,在实际生产环境中也常常被使用,是一种经典的分类模型(不是回归模型)。本文主要介绍了Logistic Regression(逻辑回归)模型的原理以及参数估计、公式推导方法...转载 2018-01-29 18:28:16 · 603 阅读 · 0 评论 -
机器学习中常常提到的正则化到底是什么意思?
作者:陶轻松链接:https://www.zhihu.com/question/20924039/answer/131421690来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。r(d)可以理解为有d的参数进行约束,或者 D 向量有d个维度。咱们将楼主的给的凸优化结构细化一点,别搞得那么抽象,不好解释; , 其中,咱们可以令:转载 2018-01-29 17:33:51 · 486 阅读 · 0 评论 -
最小二乘法
最小二乘是每个上过大学的同学都接触过的概念与知识点(当然可能纯文科的同学没接触过,但是一般纯文科的同学也不会看这篇文章好像)。最小二乘理论其实很简单,用途也很广泛。但是每次说到最小二乘,总感觉差了点什么似的,好像对于最小二乘的前世今生没有一个特别详细与系统的了解。so,本博主趁着周末的时间,赶紧给详细整理整理,力争把最小二乘是个什么鬼做一个特别详细的说明,争取让学英语学中文学历史学画画唱歌的同学都转载 2018-01-29 16:53:42 · 277 阅读 · 0 评论 -
特征值和特征向量
https://www.zhihu.com/question/21874816转载 2018-01-19 10:35:43 · 329 阅读 · 0 评论 -
数据预处理-归一化与z-score标准化
归一化:归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。对数函数转换:转载 2018-01-25 15:35:25 · 1494 阅读 · 0 评论 -
最大似然估计
最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看。今天准备写一写很多童鞋们w未必完全理解的最大似然估计的部分。单纯从原理上来说,最大似然估计并不是一个非常难以理解的东西。最大似然估计不过就是评估模型好坏的方式,它是很多种不同评估方式中的一种。未来准备写一写最大似然估计与它转载 2018-01-31 23:38:26 · 1216 阅读 · 0 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用转载 2018-01-31 23:32:16 · 192 阅读 · 0 评论 -
数据规范化(标准化)
数据规范化(标准化)在数据预处理时,这两个术语可以互换使用。(不考虑标准化在统计学中有特定的含义)。 下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的。 首先举一个例子://MaxAbsScaler例子(参考后面MaxAbsScaler部分)//例子:对特征0,特征1,特征2,分别进行缩放,使得值为[-1,1]//例如特征0,其特征向转载 2018-01-24 16:57:36 · 15823 阅读 · 1 评论 -
常见的距离算法和相似度(相关系数)计算方法
摘要: 1.常见的距离算法 1.1欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean distance) 1.2马哈拉诺比斯距离(Mahalanobis Distance) 1.3曼哈顿距离(Manhattan Distance) 1.4切比雪夫距离(Chebysh转载 2018-01-24 16:55:06 · 3229 阅读 · 0 评论 -
主成分分析(PCA)原理详解
一、PCA简介1. 相关背景主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。转载 2018-01-31 14:42:41 · 1000 阅读 · 0 评论 -
数据预处理中归一化(Normalization)与损失函数中正则化(Regularization)解惑
背景:数据挖掘/机器学习中的术语较多,而且我的知识有限。之前一直疑惑正则这个概念。所以写了篇博文梳理下摘要: 1.正则化(Regularization) 1.1 正则化的目的 1.2 结构风险最小化(SRM)理论 1.3 L1范数(lasso),L2范数(ridge),ElasticNet 1.4为什么说L1是稀疏的,L2转载 2018-01-24 09:55:38 · 2126 阅读 · 0 评论 -
平滑(smoothing)
1 问题的提出由于在现实生活中,我们的观察尺度有限,我们的样本(输入)很可能没有办法包含所有可能的情况,那么我们怎么去处理先前看不见的事件呢?举个例子,莎士比亚使用了30000个双连词(bigram),然而我们总共有V^2=8.44亿个可能的双连词,所以,99.96%的可能的双连词都没有出现过,那是不是意味着,任何句子包含有其中某一种双连词的概率就为0呢?同样的问题有很转载 2018-01-23 16:06:34 · 13708 阅读 · 0 评论 -
伯努利分布、二项分布、几何分布、超几何分布、泊松分布
导语 对于任何一个学习概率论的童鞋来说,各种分布都是很头痛的一件事情,本篇主要讨论的是离散型随机变量.伯努利分布 伯努利分布就是我们常见的0-1分布,即它的随机变量只取0或者1,各自的频率分别取1−p和p,当x=0或者x=1时,我们数学定义为: p(x)=px∗(1−p)1−x 其它情况下p(x)=0,伯努利分布是一个转载 2018-01-23 15:49:56 · 2092 阅读 · 0 评论 -
常用激活函数之— Sigmoid & ReLU & Softmax
1. 激活函数Rectified Linear Unit(ReLU) - 用于隐层神经元输出Sigmoid - 用于隐层神经元输出Softmax - 用于多分类神经网络输出Linear - 用于回归神经网络输出(或二分类问题) ReLU函数计算如下: Sigmoid函数计算如下:转载 2018-01-05 14:09:17 · 3846 阅读 · 0 评论 -
【机器学习笔记1】Logistic回归总结
1.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。首先说一下我的感受,《机器学习实战》一书在介绍原理的同时将全部的算法用源代码实现,非常具有操作性,可以加深对算法的理解,但是美中不足的是在原理上介绍的比较粗略,很多细节没有具体介绍。...转载 2018-03-15 10:18:33 · 411 阅读 · 0 评论