
机器学习 (Machine Learning)
文章平均质量分 63
有关机器学习(Machine Learning)的一些基础知识。
杨小浩浩hh
计算机硕士在读,研究方向:机器学习。
展开
-
【机器学习】横向联邦学习&纵向联邦学习区别
文章目录背景简介横向联邦学习纵向联邦学习参考背景简介现实生活中,除了少数巨头公司能够满足,绝大多数企业都存在数据量少,数据质量差的问题,不足以支撑人工智能技术的实现;同时国内外监管环境也在逐步加强数据保护,陆续出台相关政策,如欧盟最近引入 的新法案《通用数据保护条例》(GDPR),我国国家互联网信息办公室起草的《数据安全管理办法(征求意见稿)》,因此数据在安全合规的前提下自由流动,成了大势所趋;在用户和企业角度下,商业公司所拥有的数据往往都有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交换,往转载 2021-12-22 19:27:29 · 8538 阅读 · 0 评论 -
【机器学习】集成学习:Boosting、Bagging 和 Stacking
集成学习基础介绍。原创 2021-12-17 10:38:17 · 1086 阅读 · 0 评论 -
【机器学习】variance和bias理解和区别
Error = Bias + VarianceError反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。Bias:在训练集上的表现,Bias小,则模型可能会比较复杂,泛化性会较差。Variance:在测试集上的表现,Variance小,模型泛化性小,但在训练集上结果会比较差。借鉴https://www.zhihu.com/question/27068705.原创 2021-12-17 10:22:11 · 1360 阅读 · 0 评论 -
【日常分享】概率密度函数与概率分布函数理解
前言最近在搞深度学习,统计数据分布时发现概率论这部分的知识点掌握的不是很好,因此在网上查阅了部分资料,整理如下。本文主要整理概率密度函数(probability density function)和概率分布函数(probability distribution function);主要针对连续型随机变量,也会稍微提及离散型随机变量。概率密度函数...原创 2021-01-07 14:37:55 · 12332 阅读 · 1 评论 -
【机器学习】线性(linear)与非线性(nonlinear)分类器区别
背景在机器学习中,主要解决分类任务或回归任务,在这两者中,分类任务更为常见。分类任务又分为线性(linear)分类和非线性(nonlinear)分类,本文主要介绍线性分类和非线性分类的区别。区别先放一张比较直观的图(来源见水印),左侧为非线性分类器,右侧为线性分类器。即非线性分类器是求出左边这个曲线的表达式,线性分类器是求出右边这个直线的表达式。线性分类器线性分类器使用线性的函数表达式对样本进行分类,即划分边界为一个超平面,如:在二维空间中使用一条直线划分样本,在三维空间中使用一个平面来划分原创 2021-01-06 14:16:36 · 8211 阅读 · 0 评论 -
【机器学习】分类(classification)与回归(regression)任务区别及常用模型
背景在机器学习任务中,主要解决的目标分为两种:分类任务:classification回归任务:regression在进行机器学习之前,一般要先搞清楚自己的问题背景是分类任务还是回归任务,然后再采用相对应的模型。区别分类和回归的区别可以从多个角度进行描述,本文采用最简单的一个角度:输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。(此例子借鉴于原创 2021-01-06 11:32:42 · 5123 阅读 · 2 评论 -
【机器学习】Weka数据集文件形式.arff
@@转载 2020-06-28 17:02:48 · 4432 阅读 · 0 评论 -
【机器学习基础】信息熵(Information Entropy)及其部分应用
熵信息熵部分应用原创 2020-06-08 23:34:27 · 4640 阅读 · 0 评论 -
【机器学习基础】假设空间 VS 版本空间
在机器学习中,有两个知识点比较重要,分别是假设空间(hypothesis space)和版本空间(version space)。本文借用周志华《机器学习》一书中的实例向大家介绍这两个概念。文章目录数据集介绍假设空间版本空间数据集介绍假设我们的任务要判断一个西瓜是“好瓜”,还是“坏瓜”——一个二分类问题。同时,西瓜包含以下三个属性:色泽:青绿、浅白、乌黑。根蒂:蜷缩、硬挺。敲声:清脆、沉闷。假设西瓜数据集如下,给定了四条样本,要求判断是否是好瓜。假设空间我们可以把学习过程看作一个在原创 2020-06-02 21:13:06 · 3029 阅读 · 2 评论 -
【机器学习】两种方法实现KNN算法:纯Python实现 + 调用Sklearn库实现(使用Iris数据集)
KNN算法是机器学习中一种常见的监督学习方法,对于初学者来说比较友善。本文首先介绍KNN算法的基础知识,再介绍两种方法实现KNN算法。目录算法简介数据集简介纯Python实现调用Sklearn库实现算法简介算法步骤:计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测分类。算法中的距离共分为两种:数据集简介鸢尾花(Iris)数据集是机器学习中应用比较广泛的数原创 2020-05-25 21:55:52 · 8295 阅读 · 6 评论 -
机器学习(一)朴素贝叶斯基本原理概述
在机器学习的长河中,有很多判别式模型,比如KNN等等,生成一个f(x)即可对未见实例进行判断,基本不需要利用到概率论的知识。而一些生成式模型,往往利用概率表示样本的分布,从而得出P(X,Y)来对未见实例进行划分,本文所介绍的朴素贝叶斯就是其中的一种。1. 条件概率从基础讲起,首先就是大学概率论课程中接触到的条件概率。表达式如下:P(A|B) 表示在事件B发生的前提下,事件A发生的概率。...原创 2020-03-16 16:54:37 · 1288 阅读 · 0 评论