![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 68
WALL-SQ
Something we got, something we lost
展开
-
常用概率分布
1.正态分布2.二项式分布3.泊松分布4.均匀分布5.卡方分布6.beta分布原创 2022-04-10 22:18:20 · 3894 阅读 · 0 评论 -
后验概率估计
0.引言在谈后验概率估计之前,我们先回顾一下最大似然估计。最大似然估计的思想很简单,就是当前事件发生的概率要最大,由此得到未知参数。然而最大似然估计有一个最大的问题就在于缺少先验知识,比如抛硬币,在样本量不足的情况下,硬币的正反次数比可能为8:2,然而先验知识告诉我们,正确的比例应该是5:5。在大样本条件测试下,最大似然估计的准确性会提高,但我们也的确会遇到样本不足的情况,此时,如果能够引入先验知识,无疑是有益的。1.条件概率后验概率(贝叶斯概...原创 2022-04-01 23:22:53 · 4901 阅读 · 1 评论 -
概率不等式
1.马尔可夫不等式我们有一个概率密度图如下:证明:由且可得那么显然会有根据期望的公式,有由于密度函数一定是非负值函数,因此必有所以有又故可得2.切比雪夫不等式证明:将代为马尔可夫不等式中的,可得为了去掉绝对值,我们进行平方,则有由于是均值,因此可以发现因此可以得到...原创 2022-04-01 19:25:54 · 1149 阅读 · 0 评论 -
PCA主成分分析
0.基本说明PCA主成分分析是一种数据降维(有损压缩)的方法,在尽量保持信息的情况下,尽量减少数据的维度。1.PCA思想以二维为例,假设我们现在有一系列点,如下图所示:假设我们总共有n个点,每个点需要2个坐标值,存储代价为2n。现在我们考虑将所有点投影到L上,可以发现,相互距离大的点对在投影后依旧保持大距离,相互距离小的点对在投影后依旧保持小距离,而表达L我们可以用一个单位向量表示,所有的点投影到L上,相当于把L当作一个数轴,于是就可以量化...原创 2022-03-20 14:33:31 · 1630 阅读 · 0 评论 -
SVD分解
SVD分解常用的场景是对长方形矩阵的分解,但是这么说实在是太抽象了,我们从一个例子出发来重新看一下SVD到底是一个啥玩意儿叭在机器学习领域,我们常常遇到的问题是,数据以 样本 * 特征 的形式存储为一个2维矩阵,而这其中,往往存在稀疏性,即样本量很大,特征维度也很多,但是对于不同的人而言,他们的特征表达可能都是非常稀疏的。用特征向量的形式表示来说,可能样本A、B各自的特征向量如下:0这种量化值,实际上并不包含信息,至于为什么,我的个人理解是:深度学习底层所使用的基本基本公式为Wx+b原创 2022-03-14 18:08:41 · 11204 阅读 · 1 评论 -
极大似然估计
极大似然估计是一种很有效的统计学估计手段,它是根据观察到的样本值来反推造成这个结果的因素,其数学表示如下: 给定该系统的观察值,在系统参数未知的情况下求解。极大似然估计所依赖的原理是:可以认为,当前发生的事(即观测到的值)发生的概率是最大的;即我们需要求的应满足:此时只需要将当作已知量,求出当最大时的值就知道了答案。注:一般来说,都是直接求导求驻点来解,有时为了方便解答,会在外层套一个对数变成对数似然,这只是为了求导的方便,因为log套在外面并不会影响原函数的驻点。...原创 2022-03-14 16:14:46 · 1079 阅读 · 0 评论 -
支持向量机-SVM(Support Vector Machine)
0.引入假设二维空间中存在一些点的分布,现在我们想要一个模型来决定点的真实所属类别我们可以有任意种方式来画这个边界线,如上图的黑色直线和绿色曲线,哪一种才好呢?实际上根据奥姆剃刀原理,我们会选择黑色的直线。奥姆剃刀原理:如果有两种理论可以得到相同的结果,那么更简单的那个更好。在我们的例子上,显然直线的表达式比曲线要好,因此我们会选择直线。 对于这种情况,我们称之为线性可分,也就是使用线性模型可以解决的分类问题。进阶:现在假设我们有多条直线...原创 2021-12-18 17:22:50 · 1106 阅读 · 0 评论