统计学和机器学习
正经学机器学习,重视数学基础,详细推导
anarion
这个作者很懒,什么都没留下…
展开
-
K-Means:隐变量、聚类、EM
K-Means:从隐变量到聚类本文「最终」介绍著名的KMeans算法,在此之前,先作一系列铺垫。只知道KMeans算法本身远远不够,且算法十分简单,并不值得花一整篇博客讲解。知其然且知其所以然,非常重要。故本文从含有隐变量的概率模型开始讲起,介绍清楚最一般的情况。最后KMeans算法的出现就显得十分简单,几乎不值一提。阅读本文,你不但将知道KMeans算法的来龙去脉,还将对贝叶斯统计和隐变量模型有更深的理解。如果你只想了解KMeans算法,一点数学推理都不想看,可以直接跳到文章的最后一个h1标题下的第原创 2020-07-19 22:50:23 · 384 阅读 · 0 评论 -
人话入门贝叶斯统计学
人话入门贝叶斯统计学你可能刚学完大学里面喜欢开的「概率论与数理统计」,知道各种各样的分布,听说过中心极限定理,会做一些参数估计。这时候是继续深入统计学的绝佳时机,然而大多数学校到这里就要期末考试了,非有关专业学生不会继续学习这方面课程,非常可惜。本文从概率论结束开始,讲解对贝叶斯统计学的直观理解。你可能在概率论的课上学过一点点统计学,也可能很深入的学过统计学。在大多数情况下,大学开设的概率统计课程是「频率学派」或「Fisher学派」,而不是本文要讲的「贝叶斯学派」。大多数学生学过「频率学派」和「Fish原创 2020-07-18 17:06:02 · 811 阅读 · 1 评论 -
玩一玩梯度下降可视化
玩一玩梯度下降可视化如果你只会调包,只会import sklearn,本文想让你更进一步,真正动手实现机器学习的算法。发明这些算法的人当然很厉害,但技术就是技术,不会由于过于神秘而不可触碰。既然学了机器学习,为什么不能自己实现算法,那些开源的库,不也是从空白的文件写起的吗?只要你了解部分以下内容,就可以畅通无阻地阅读本文:识别英文单词Python简单语法,numpy简单语法简单的加减乘除,简单的微积分常识本文探索各种各样梯度下降的运行过程,观察参数变化的规律,以求获得更深的理解。你可以复制我的原创 2020-07-05 01:00:45 · 535 阅读 · 0 评论 -
从「一」到「无穷大」:广义线性模型 (GLM)
从「一」到「无穷大」:广义线性模型 (GLM)本文基于「指数分布族」的理论,以「Logistic回归」为例,讲解推广线性模型的过程。如果你还不了解指数分布族,请看:指数分布族本文的md源码地址:AnBlogs文章目录从「一」到「无穷大」:广义线性模型 (GLM)Logistc回归举个例子原始概率模型指数族分布形式 (Exponential Family)和线性组合连接 (Link Function)推广总结详细说说连接函数 (Link Function)定义和意义函数的记号和术语如何选择没有多个要预原创 2020-06-20 18:19:35 · 475 阅读 · 0 评论 -
统一分布:指数模型家族
统一分布:指数模型家族本文讲解和「指数分布族」有关的统计计算。机器学习中应用的诸多概率模型都可以统一到「指数族分布」下,这样的统一省去了一些不必要的重复,也为「广义线性模型」(GLM) 奠定了基础。本文md源码地址:AnBlog/统计和机器学习文章目录统一分布:指数模型家族是什么字母的含义把一些分布的概率密度函数化成指数分布族形式伯努利分布多项伯努利分布 (Multinoulli)单变量的正态分布操作总结举个反例分配函数 (Partition Function)计算伯努利分布举个例子似然表达似然最大似原创 2020-06-16 19:50:16 · 991 阅读 · 0 评论 -
划成两半:Logistic分类器
本文讲解Logistic回归的基本统计学计算,只进行到最大似然估计,估计后验等计算过于复杂而暂不进行。本文的md源码地址:AnBlog/统计和机器学习文章目录干什么概率模型数据条件刻画概率似然表达似然最大似然估计干什么概率模型模型的任务是,拿到一个特征数据xxx,判断这个特征的对象更可能属于哪个类别。可能只有两个可以选择的类,也就是二分类问题,也可能有多个,也就是多类分类问题。翻译成数学语言,就是要求p(y=c∣x)p(y=c|x)p(y=c∣x),yyy就是目标预测变量,取一系列离散值,代表多.原创 2020-06-16 11:55:50 · 336 阅读 · 0 评论 -
线性回归和贝叶斯的线性回归
线性回归和贝叶斯的线性回归问题是什么这个h2标题令人疑惑,不就是线性回归么,高中就会啦。y=θTx+by=\theta^Tx+by=θTx+b或者也写成这样:y=θTx,x0=1y=\theta^Tx,x_0=1y=θTx,x0=1用一个xxx的分量代表偏置项bbb,为了方便表述,以下都使用这个记号。线性回归的目标是,用线性的函数描述任何数据,使得误差最小。误差就是这样:L(i)=∣∣y(i)−(θTx(i))∣∣22L^{(i)}=||y^{(i)}-(\theta^Tx^{(原创 2020-06-06 00:01:22 · 1505 阅读 · 1 评论 -
伯努利分布+朴素贝叶斯分类器の概率解释
在神经网络技术还不成熟的时候,朴素贝叶斯分类器(NBC)是文档分类的利器。即便是在神经网络满地走的今天,朴素贝叶斯模型依然有很大的价值。进行文档分类时,这个模型只需要进行几次简单的循环,就可以给出结果,在一些对结果要求不是特别高、对性能要求很高的场景下,具有很大的价值。这篇文章以文档分类问题引出,重点将特征的伯努利分布(Bernoulli)带入朴素贝叶斯模型,熟悉贝叶斯统计的流程和计算。原创 2020-06-04 20:55:06 · 1796 阅读 · 0 评论