概率和统计
NeverMore_7
野鸡大学CS学生
展开
-
隐马尔科夫模型(HMM)
隐马尔科夫模型(Hidden Markov Model,HMM)是一种概率图模型(PGM),概率图模型的定义及内容参看:概率图模型。必备的数学知识 随机过程(Stochastic Process)是一连续状态下随机变量的动态关系的定量描述。回想一下随机变量的数学定义,随机变量是描述一组实验的可能结果,所有的可能结果构成一个基本空间,随机过程可看做在随机变量的基础上附加了一个连续状态,比如时间。原创 2017-08-02 13:47:57 · 973 阅读 · 0 评论 -
核密度估计 Kernel Density Estimation(KDE)
写在前面给定一个样本集,怎么得到该样本集的分布密度函数,解决这一问题有两个方法: 1.参数估计方法 简单来讲,即假定样本集符合某一概率分布,然后根据样本集拟合该分布中的参数,例如:似然估计,混合高斯等,由于参数估计方法中需要加入主观的先验知识,往往很难拟合出与真实分布的模型; 2.非参数估计 和参数估计不同,非参数估计并不加入任何先验知识,而是根据数据本身的特点、性质来拟合分布原创 2017-11-16 23:16:14 · 162023 阅读 · 20 评论 -
机器学习—经验风险最小化
写在前面本文是Andrew Ng的机器学习公开课的总结,其中涉及到偏差方差分析在PRML中有过比较严谨的数学分析,详见文章PRML——偏差方差分析。而吴老师的课上以一种更直接和相对较为通俗的方式给出了这些概念,解决的问题有如下几个:(1). 如何形式化定义方差和偏差(针对机器学习算法)以方便对算法的讨论评价?(2). 用训练误差评估泛化误差是否合理?(3). 在什么条件下,我们能评估一个算法的好坏?原创 2017-10-16 23:42:51 · 3919 阅读 · 0 评论 -
模糊集在图像二值化与图像增强的运用
引言模糊理论说得直白一点就是表达不确定性,这个不确定性是用一个隶属度函数来衡量,该函数的取值为[0,1][0,1],隶属度函数值越大则趋于一致,当隶属度函数值为00时,表示相反。关于模糊理论的一般定义和表述可以参考Gonzalez《数字图像处理》。本文关注的是模糊集在数字图像处理的运用,包括图像二值化和图像增强两方面的运用,主要内容来自以下两篇论文:[1]. Image thresholding原创 2017-09-22 15:28:09 · 2876 阅读 · 1 评论 -
软权值共享
前言权值共享是一种减小深度网络中参数数量的方法,常见于卷积神经网络(CNN)。在CNN中每一个特征图是一组相同的参数对图像进行卷积中,每一组参数对应着图像每个局部的特征。这样的的权值共享叫做硬权值共享。而某些场景下,我们并不能这样使用同一组参数作,而使用相似的参数,这叫做软权值共享。软权值共享以一种正则化的形式给出。软权值共享我们常见的正则化形式是λwwT\lambda ww^T,如果将权值看作是符原创 2017-09-08 18:19:33 · 2215 阅读 · 0 评论 -
拉普拉斯近似
问题背景很多时候,无法确定一个概率分布的具体密度函数,因而在对这种分布进行后续操作(例如,作为贝叶斯学派求后验概率)时难度很大,无法进行。这时候则需要对这种无法精确知道分布函数的概率进行近似处理成已知的概率分布,从而方便计算或操作。拉普拉斯近似便是一种简单且广泛应用的近似方法,并且是很多采样方法的基础思想。拉普拉斯近似该方法的目的是找到一组定义在连续变量变量上的高斯近似,假设任一单一连原创 2017-08-26 17:18:52 · 8984 阅读 · 3 评论 -
【PRML】—— 共轭分布
写在前面《pattern recognition and machine learning,PRML》一直广受好评,全书从数学思想的方面介绍模式识别和机器学习,阅读之前需要一些数学只是,如果大学本科的数学(高等数学、概率和梳理统计、线性代数)还没完全忘记的话,阅读起来应该不是难事。另外一点,你需要静下心来慢慢读,细细品味(第一次读这本书的时候,读了几个章节就完全懵逼了 - -!)。这是第二次拿起来读原创 2017-08-14 15:18:23 · 996 阅读 · 0 评论 -
PRML——偏差方差分析
引言偏差方差分析是机器学习中常用的来衡量模型对数据拟合好坏的度量方式,PRML中对这一个问题进行了数学理论上的分析。最好的回归函数对于回归问题的朴素方式是对输入的每一个样本xx,输出对真实回归值tt的一个估计y(x)y(x),这样做之后,会得一个估计值和真实值之间的损失L(y(x),t)L(y(x),t),则平均损失就是:E[L]=∫∫L(y(x),t)p(x,t)dxdtE[L]=\int\int原创 2017-08-19 16:31:44 · 2031 阅读 · 0 评论 -
提升方法之AdaBoost、提升树(GBDT)
引言提升方法是一种常用的学习方法(确切来说是一种基于统计的学习方法),并且广泛有效,基本思想是:不需针对学习任务(分类或者回归,为叙述方便,后文中以分类为例)直接学习出一个模型,而是先学习出一个模型,对样本进行分类,在该模型无法准确分类的样本上学习第二个模型,以此类推,直到所有样本都被准确的分类,最终的模型是将之前学习到的模型进行线性组合,可看做是“分而治之”的思想。AdaBoost强弱学习器强原创 2017-08-11 16:00:25 · 4349 阅读 · 3 评论 -
NLP——分词之正向(逆向、双向)最大
引言自然语言处理(Natural Language Processing,NLP)一直是个研究的热点,随着神经网络(Neural Network,NN)的再次兴起,以及深度学习(Deep Learning,DL)的迅速发展,NLP也开始起飞。由于计算机只认识数字符号,对于英文、汉字这类“高级语言”计算机还没考过1级证书。就像一个婴儿,你喂他吃饭,不能一开始就喂一些高难度的食物嘛,扔给他一只龙虾。“朋原创 2017-08-04 15:02:53 · 3083 阅读 · 0 评论 -
强化学习笔记—马尔科夫决策过程(MDP)
写在前面最近刚接触强化学习,系统的学习资料感觉很少,不过好像最近有一本强化学习的书要出来,还是蛮期待的。结合师兄给的一些资料和网络资源进行“艰难”的摸索过程,任重道远。将学习过程中的一些知识记录在这里,加深印象,特别感谢这个专栏。强化学习强化学习目前越来越火,从AlphaGo到AlphaZero让大家见识到了强化学习的力量,有很多AI大牛也公开表示强化学习是改变未来重要的工具。这里就以原创 2017-12-28 15:41:59 · 25615 阅读 · 9 评论