机器学习
cute_Lily
这个作者很懒,什么都没留下…
展开
-
一 、朴素贝叶斯分类器
朴素贝叶斯分类器是经典的机器学习算法之一,它是一种基于概率论的分类算法。它的基本思想就是基于概率和误判损失来选择最优的类别标记,常用于垃圾邮件过滤等。1、贝叶斯公式贝叶斯公式是朴素贝叶斯分类器的基础,该公式中最重要的两个因素是先验概率和后验概率,首先来介绍一下先验概率和后验概率的概念:先验概率:是指根据以往经验和分析得到的概率;后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引...原创 2019-12-15 20:16:10 · 1889 阅读 · 0 评论 -
二、 最大似然估计和贝叶斯参数估计
在朴素贝叶斯分类器中,我们是利用先验概率 P(c)P(c)P(c) 和 类条件概率密度 p(x∣c)p(x|c)p(x∣c) 来设计最优分类器,但是在实际应用中,通常是拿不到概率结构的全部知识的,因此我们就需要利用这些训练样本来估计问题中涉及的先验概率和条件密度函数,并把估计得结果当作实际地先验概率和条件密度,最后设计分类器。估计先验概率比较容易,最大的困难在于类条件概率密度,主要问题在于:(1)已有的训练样本数太少(2)当特征向量 xxx 的维度较大时,会产生严重的计算复杂度。但是,如果参数的个数已原创 2020-09-15 15:22:52 · 1417 阅读 · 0 评论 -
三、 似然函数
在 朴素贝叶斯分类器 和 最大似然估计和贝叶斯参数估计 中,我们都提到了 似然 这个词,这么这里就详细讲一讲什么是似然。原创 2020-09-15 20:33:29 · 7966 阅读 · 0 评论 -
四、 主成分分析 PCA
主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法。PCA 旨在找到数据中的主成分,并利用主成分表征原始数据,从而达到降维的目的。PCA是一种线性、非监督、全局的降维算法。以一个二维数据集为例,(a) 是二维空间中经过中心化的一组数据,我们很容易看出主成分所在的轴(以下称为主轴)的大致方向,即 (b) 中黄线所处的轴。1 原理分析假设原数据点为 v1,v2,...,vn{v_1, v_2, ..., v_n}v1,v2,...,vn,所有向量原创 2020-09-17 21:41:48 · 1270 阅读 · 1 评论 -
五、 线性判别分析 LDA
线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的有监督数据降维方法,同时也经常被用来对数据进行降维。它是 Ronald Fisher 在 1936 年发明的,因此也称为是 Fisher Discriminant Analysis (FDA)。1 LDA 原理LDA 是为了分类服务的,因此目标是希望找到一个投影方向 www,使得投影后的样本尽可能按照原始类别分开。假设现有数据集 D=(x1,y1),(x1,y1),⋅⋅⋅,(xn,yn)D = {(x_1, y原创 2020-09-18 22:44:28 · 984 阅读 · 0 评论 -
六、 逻辑回归(Logistics Regression, LR)
逻辑回归(Logistics Regression)的目的其实是分类,它的本质是一种二分类方法。1、Sigmoid 函数逻辑回归的思想其实非常巧妙,既然我们希望做二分类,那就令这两类的标签为 {0,1}\{0,1\}{0,1}(这里令1为正例,0为负例),对所有的样本 xxx,令 xxx 用来分类的变换值为 zzz (通常 z=wTx+bz=w^Tx+bz=wTx+b),令 yyy 为样本 x...原创 2019-12-22 16:19:30 · 528 阅读 · 0 评论 -
七、 支持向量机(Support Vector Machine, SVM)
支持向量机(Support Vector Machine, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;当把核引入到SVM中后,它就成为了非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。...原创 2020-09-23 20:54:17 · 560 阅读 · 0 评论 -
八、决策树
1 原理介绍决策树是一种自上而下,对样本数据进行树形分类的过程,由结点和有向边组成。结点分为内部结点和叶结点,其中每个内部结点表示一个特征或属性,叶结点表示类别。从顶部根结点开始,所有样本聚在一起,经过根结点的划分 ,样本被分到不同的子结点中,再根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。决策树作为最基础、最常见的有监督学习模型,常被用于分类问题和回归问题,因此,决策树是一种基本的分类与回归方法,在市场营销和生物医药等领域尤其受欢迎,主要因为树形结构与销售 、诊断等场景下的原创 2020-09-19 12:04:43 · 242 阅读 · 0 评论 -
九、集成学习 Ensemble Learning
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。根据个体学习器的生成方式,目前的集成学习方法大致分成两大类:个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表算法为:Boosting个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表方法为:Bagging 和 “随机森林”(Random Forest)原创 2020-09-21 20:41:44 · 680 阅读 · 1 评论 -
十、K 均值聚类(K-means)
聚类是在事先并不知道任何样本类别标签的情况下,通过数据之间的内在关系把样本划分为若干类别,使得同类别样本之间的相似度高,不同类别之间的样本相似度低的过程。因为没有用到样本的类别标签,因此聚类技术经常被称为无监督学习。k 均值聚类是最著名的划分聚类算法,因为其简洁和高效的特性,使得它成为所有聚类算法中最广泛使用的一种。1 基本思想K 均值聚类的基本思想是,通过迭代方式寻找 KKK 个簇(Cluster)的一种划分方案,使得聚类结果对应的代价函数最小。算法的流程如下:输入数据集合,并对数据进行预处理原创 2020-10-29 21:01:50 · 5401 阅读 · 0 评论 -
十一、高斯混合模型(Gaussian Mixed Model, GMM)
1 高斯模型1.1 单高斯模型当样本数据 XXX 是一维数据时,XXX 服从高斯分布是指其概率密度函数(Probability Density Function)可以用下面的式子表示:P(x∣θ)=12πσexp(−(x−μ)22σ2)P(x|\theta)=\frac{1}{\sqrt{2\pi} \sigma} \exp (-\frac{(x-\mu)^2}{2\sigma^2})P(x∣θ)=2πσ1exp(−2σ2(x−μ)2)其中,μ\muμ 为数据均值(期望),σ\sigmaσ原创 2020-11-10 13:21:44 · 4127 阅读 · 1 评论 -
机器学习常用的损失函数
1 回归问题1.1 均方差损失(Mean Squared Error Loss, MSE)/ L2损失均方差损失是回归任务中最常用的一种损失函数,也称为 L2 Loss,其基本形式为:JMSE=1N∑i=1N(yi−f(xi))2J_{MSE}=\frac{1}{N} \sum_{i=1}^N (y_i - f(x_i))^2JMSE=N1i=1∑N(yi−f(xi))21.1.1 原理均方差损失函数1.2 平方绝对误差损失(Mean Absolute Error Loss, MAE)原创 2020-10-21 19:56:09 · 851 阅读 · 0 评论 -
机器学习中常用的距离公式
距离应满足的性质:非负性同一性对称性直递性(三角不等式):dist(i,j)≤dist(i,k)+dist(k,j)dist(i,j)\leq dist(i,k)+dist(k,j)dist(i,j)≤dist(i,k)+dist(k,j)1 两点之间的距离令两点为 X=(x1,x2,⋯ ,xn)X=(x_1,x_2,\cdots,x_n)X=(x1,x2,⋯,xn),Y=(y1,y2,⋯ ,yn)Y=(y_1,y_2,\cdots,y_n)Y=(y1,y2,⋯,yn)1.1原创 2020-10-17 22:09:57 · 800 阅读 · 0 评论