自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 SVM

支撑向量机(SVM)算法在分类问题中有着重要地位,其主要思想是最大化两类之间的间隔。按照数据集的特点:线性可分问题,如之前的感知机算法处理的问题线性可分,只有一点点错误点,如感知机算法发展出来的 Pocket 算法处理的问题非线性问题,完全不可分,如在感知机问题发展出来的多层感知机和深度学习这三种情况对于 SVM 分别有下面三种处理手段:hard-margin SVMsoft-mar...

2020-04-30 23:26:52 127 1

原创 条件随机场

分类问题可以分为硬分类和软分类两种,其中硬分类有 SVM,PLA,LDA 等。软分类问题大体上可以分为概率生成和概率判别模型,其中较为有名的概率判别模型有 Logistic 回归,生成模型有朴素贝叶斯模型。Logistic 回归模型的损失函数为交叉熵,这类模型也叫对数线性模型,一般地,又叫做最大熵模型,这类模型和指数族分布的概率假设是一致的。对朴素贝叶斯假设,如果将其中的单元素的条件独立性做推广到...

2020-04-29 21:50:34 186

原创 EM

2020-04-26 23:08:43 216

原创 贝叶斯线性回归推导

线性回归当噪声为高斯分布的时候,最小二乘损失导出的结果相当于对概率模型应用 MLE,引入参数的先验时,先验分布是高斯分布,那么 MAP的结果相当于岭回归的正则化,如果先验是拉普拉斯分布,那么相当于 Lasso 的正则化。这两种方案都是点估计方法。我们希望利用贝叶斯方法来求解参数的后验分布。...

2020-04-23 23:54:52 957

原创 Task01线性回归

最小二乘法矩阵表达、几何意义、概率角度正则化和岭回归

2020-04-21 23:55:13 102

原创 西瓜书第十章笔记:降维与度量空间

10.1 kkk临近学习k近邻(k-Nearest,简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本。然后基于这k个“邻居”的信息进行预测。通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将这k个样本的实际值输出标记的平均值作为预测结果。还可基于距...

2019-07-11 08:28:44 209

原创 西瓜书笔记:第八章 集成学习

1

2019-06-26 20:08:52 410

原创 西瓜书第二章笔记:模型评估

1

2019-06-20 18:46:12 169

原创 西瓜书第七章笔记:贝叶斯分类器

朴素:特征条件独立;贝叶斯:基于贝叶斯定理。朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。1.算法思想——基于概率的预测贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的标记类别。2. 理论基...

2019-06-13 22:12:46 273

原创 西瓜书第五章笔记:神经网络

1

2019-06-05 22:49:51 1065

原创 西瓜书第六章笔记:支持向量机

支持向量机support vector machine,通俗来讲是一种二分类模型,它为特征空间上的间隔最大的线性分类器,其学习策略便是使间隔最大化,最终可转化为一个凸二次规划问题的求解。1.1分类标准的起源:Logisti回归线性分类器:给定一个数据集,他们分属两个不同的类,要找到 一个线性分类器把这些数据分成两类。如果用x表示数据点,用y表示类别(y可以取1或者-1,分别代表两个不同的类),...

2019-05-30 22:05:55 231

原创 西瓜书第四章笔记:决策树

1

2019-05-22 21:35:37 361

原创 西瓜书第一章笔记:绪论

1.1引言模型:指从数据中学得的结果模式:指局部性结果1.2基本术语数据集(data set):一组记录的集合(如西瓜的描述集合)示例(instance)或样本(sample):数据集中的一条记录,是关于一个事件或对象的描述。(如每个示例代表对一个西瓜的描述)属性(attribute)或特征(feature):反映对象某方面的表现或性质的事项。(如西瓜的属性描述为:根蒂、敲声、色...

2019-05-14 19:08:30 169

原创 西瓜书第三章笔记:线性模型

3.1基本形式回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联被预测的变量叫做:因变量(dependent variable),被用来进行预测的变量叫做: 自变量(independentvariable),一元线性回归包含一个自变量和一个因变量以上两个变量的关系用一条直线来模拟如果包含两个以上的自变量,则称作多元回归分析(multiple re...

2019-05-14 19:07:50 254

原创 统计学习之第四天(可汗学院公开课:统计学)

线性回归:在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系,对于需要预测结果的新数据,我们利用已经拟合好的线性模型来预测其结果。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。拟合方程使用得比较广泛的有最小二乘法。线性模型在二维空间中就是一条直线,在三维空间是一个平面。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种...

2019-04-09 20:51:57 186

原创 统计学习之第三天(可汗学院公开课:统计学)

47.假设检验假设检验(Hypothesis Testing):依据一定的假设条件由样本推断总体的一种方法。基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。假设检验分...

2019-04-07 22:38:59 276

原创 统计学习之第二天(可汗学院公开课:统计学)

35.中心极限定理大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。而中心极限定理说是在一定条件下,给定一个任意分布的总体,我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。在实际生活当中,我们不能知道我们想要研究的对象的平均值,标准差之类的统计参数。中心极限定理在理论上保证了我们可以用只抽样一部...

2019-04-05 22:33:52 251

原创 统计学习之第一天(可汗学院公开课:统计学)

统计学习之第一天(可汗学院公开课:统计学)12.样本和总体:总体(population),研究对象的全部称为总体。总体均值:又叫做总体的数学期望或简称期望,是描述随机变量取值平均状况的数字特征。包括离散型随机变量的总体均值:和连续型随机变量的总体均值。总体均值公式:图中.μ 读作 mu,∑ 读作 sigma 或 sum样本(sample),研究对象的一部分称为样本。样本均值:均值是表...

2019-04-04 17:54:18 290

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除