
机器学习(ML)
文章平均质量分 91
概念、连载
Robin_Pi
所有觉得难得东西,只是因为没有真正理解最基础的概念
展开
-
机器学习算法/模型——总章
目录1. 机器学习介绍2. 机器学习模型介绍线性回归1. 机器学习介绍机器学习介绍2. 机器学习模型介绍线性回归原创 2020-02-21 12:32:50 · 702 阅读 · 0 评论 -
机器学习——Sklearn学习笔记——总章
Sklearn学习笔记 0| 总章写在前面预处理模型选择算法分类回归聚类降维写在最后写在前面Sklearn 官方文档相当地详实,反而显得对初学者学习不太友好。本 “学习笔记” 系列就是参照Sklearn官方文档整理而得,结构上基本维持不变,内容少会有少许删减(过于详细和”偏“),以便自己以后查阅和复习。预处理模型选择算法分类回归聚类降维写在最后后续还会继续更新 “学习总结”...原创 2020-01-14 14:10:21 · 813 阅读 · 0 评论 -
训练集、训练集、测试集?
突然一下记不起来验证集的作用了,再次小结一下。为什么要分训练集、验证集(也有人叫训练开发集)和测试集(甚至还有人想继续划分出一个测试开发集?周志华的西瓜书上其实说的很清楚:也就是说,训练集用来训练或者说拟合(fit)模型;验证集用来测试不同模型和参数下的表现,借此调整(tune)模型;测试集用来估计模型在实际使用(未知情况)时的泛化能力,即实施(deploy)模型。参考:能不能只要训练集和测试集,不要验证集呢?...原创 2020-11-19 14:03:13 · 459 阅读 · 0 评论 -
再看混淆矩阵(Confusion Matrix)
Why positive and negative?一直不明白为什么二分类问题要用”正例“和”负例“来代替两中类别,这样不是太局限了么,其实类别之间本质上并没有什么”肯定“/”否定“和”阴性“/”阳性“之分(这些都只是人类主观观点).一般来说,我们这样来进行约定:预计会发生的事件叫做阳/正(Positive),而把预计不会发生的事件叫做阴/负(Negative),比如:“狼来了”是正类别。“没有狼”是负类别。说白了,Positive 和 Negative 都是预测的结果。而事件本身是可能发原创 2020-08-26 14:12:06 · 824 阅读 · 0 评论 -
机器学习评价指标(1)——灵敏度(sensitivity)/查准率/召回率(Recall)/和特异度(Specificity)
理想状态:标准或者阈值在分界点实际状况:漏诊和误诊二者择一若选用绿线作为判断标准,则没有误判一个正常人,但是漏掉了部分患者;若选择红线作为判断标准,则没有一个病人被漏诊,但部分正常人得到了错误的结果;所以,要根据具体的情况,选择适合的判断标准:对于一些预后差,漏诊后果严重,早期诊断可以有效果很好的疾病时,我们就把灵敏度定高一点。不要放过一个病人。梅毒就是这样的疾病,所以,RPR检测的灵敏度高特异度低。对于一些治疗效果不好,确诊和治疗费用高,或者预后不太严重,或误诊时对病人心理生理和经济上.原创 2020-06-26 09:51:12 · 24946 阅读 · 1 评论 -
机器学习之集成学习
集成学习集成学习理论集成学习的种类集成学习的步骤和例子基本分类器偏差与方差经典集成学习梯度提升决策树(GBDT)的基本原理XGBoost 与 GBDT的联系和区别集成学习理论集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。集成学习的种类(1)集成学习分哪几种?他们有何异同?Boosting:迭代式学习Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权原创 2020-06-03 17:18:00 · 887 阅读 · 0 评论 -
什么是机器学习里的优化?
优化问题简单来说,优化分为两步:1. 构造目标函数2. 确定最优化方法首先接触过那么多优化的方法,但是,究竟何为“优化”?可以参考知乎某答:最优化问题的简洁介绍是什么?简单来说,优化分为两步:1. 构造目标函数构造一个合适的目标函数,使得这个目标函数取到极值的解就是你所要求的东西; (构造目标函数)即构造出 **obj = loss + λΩ** > 注意:使用因子来衡量二者的重要程度,这是权重或者系数的本质意义吧再通俗直白地说,目标即使得模型能够自动选择分类效果好,并且尽量简单原创 2020-05-13 12:25:09 · 808 阅读 · 0 评论 -
机器学习进之进阶——概率图模型
如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决了问题。概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中有向边表示单向的依赖,无向边表原创 2020-05-12 22:59:46 · 304 阅读 · 0 评论 -
目标函数:经验损失(损失函数)和结构化损失(正则项)都做了些什么?
目标函数1. 概念2. 框架2.1 理想/标准状态:2.2 实际情况:3. 作用和朴素理解越学越糊涂,忘了各个模块存在的初衷,也还是没完全弄清“损失函数、目标函数、经验风险、期望风险、结构风险、泛化、方差、偏差”等概念以及直观上的作用。李航说机器学习有三要素:模型、策略和算法(统计学方法=模型+策略+算法),这里主要就对“策略”这块做一个简短的概念上的小结,思路如下:先说框架再说作用以及朴素的理...原创 2020-05-04 10:45:28 · 2298 阅读 · 0 评论 -
分类损失函数(margin 损失函数)——以二分类为例(∈{−1,+1})
文章目录1. 分类问题的损失函数——用????????(????)来判断1.0 margin: ????????(????)1.1 0-1损失 (zero-one loss)1.2 Logistic loss1.3 Hinge loss回归问题的损失函数——用????−????(????)来度量写在前面:损失函数的作用:衡量真实值 y 和预测值 f(x) 之间不一致的程度如何惩罚:关键:抓住了 ????−????(????) 和 ????????(????) 就抓住了损失函数...原创 2020-05-03 16:24:53 · 21384 阅读 · 2 评论 -
特征空间、(数据集)线性可分:线性(二分类)模型
文章目录二分类问题特征空间线性可分线性分类模型在学习 SVM 时发现自己没能很好地理解在线性模型中充当决策函数角色的符号函数Sign(),说明对线性模型的理解还不够到位,下面主要梳理一下对数据集“线性可分”概念以及其它相关概念的一些理解,大概按照下面思路进行:二分类问题|特征空间|线性可分|线性模型二分类问题(分类问题-二分类)在机器学习的应用中,至少现阶段,分类是一个非常常...原创 2020-05-03 13:19:50 · 8722 阅读 · 2 评论 -
机器学习是什么?(进阶)
这篇博文写的不错:点击原创 2020-05-03 07:59:06 · 211 阅读 · 0 评论 -
2020 机器学习知识点记录
知识点记录距离、范数判别模型、生成模型线性函数 - 分类问题、回归问题线性函数 - 符号函数、决策函数目标函数、损失函数函数间隔、几何间隔...原创 2020-05-02 21:26:34 · 226 阅读 · 0 评论 -
假设:假设函数
什么是正确认识假设函数?如何寻找假设函数?参考原创 2020-05-02 09:31:02 · 1262 阅读 · 0 评论 -
参数学习:LR 与 SVM的区别?
文章目录LR与SVM的联系与区别:如何选择LR与SVM?什么是参数模型(LR)与非参数模型(SVM)?LR与SVM的联系与区别:联系:1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)2、两个方法都可以增加不同的正则化项,如l1、l2等等。所以在很多实验中,两种算法的结果是很接近的。区别:1、LR是参数模型[逻辑回归是假设y服从Ber...原创 2020-05-02 00:40:15 · 422 阅读 · 0 评论 -
线性模型小结:还分不清线性回归和线性分类模型?
线性模型0. 写在前面1. 线性模型2. 用于回归和分类回归问题分类问题3. 分类任务的几个问题3.1 如何解决非线性的分类问题3.2 如何解决多分类问题:三种解决0. 写在前面今天对线性模型做一个总结,围绕以下两个点理一理思路:判别函数 - 决策函数;线性模型 - 线性模型各类拓展具体沿着以下几个问题展开:1. 生成方法与判别方法2. 判别函数与决策函数3. 线性模型4. 广义...原创 2020-05-02 00:33:41 · 3405 阅读 · 0 评论 -
由生成模型与判别模型引发出的思考:用”降维“去理解一切努(公式)力(定理)
文章目录1. 生成模型和判别模型1.1 概念1.2 特点/区别1.3 联系2. 补充2.1 决策函数Y=f(X)和条件概率分布P(Y|X)的关系2.2 判别模型的产生原因3. 更多思考(待完善)有些先决条件没有理解的很透彻导致了后续很多概念反反复复搞不清楚。1. 生成模型和判别模型一句话粗略总结:面对分类问题,生成模型学习同类之间的相似点(并不关心分类边界),判别模型学习不同类别之间的...原创 2020-05-01 09:02:36 · 492 阅读 · 0 评论 -
值得反复思考的博客(机器学习篇)
文章目录特征工程特征工程特征工程之连续特征与离散特征处理方法介绍原创 2020-04-30 05:59:37 · 310 阅读 · 0 评论 -
“距离”、“范数”和范数正则化
1. 范数1.1 概念向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。1.2 定义向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||。1.3 常见的向量范数L1范数: ||x|| 为x向量各个...原创 2020-04-27 18:16:56 · 1593 阅读 · 0 评论 -
机器学习常见的数学符号表
参考《统计学习方法》原创 2020-04-27 17:21:27 · 1717 阅读 · 0 评论 -
机器学习算法/模型——阶段性总结(4)更高层次
关于模型套路损失函数的本质是物理世界和数学公式之间的桥梁,选择何种损失函数取决于我们如何看待我们的问题场景,以及我们希望得到什么样的解释。偶然性-波动-偏置我们最终需要的模型要用来表征实际的情况。但模型不可能百分百正确地反映真实情况,总有误差,因此我们可以给这个模型加上个误差项 ϵ\epsilonϵ(或者说噪音)。例如,重新写成:注意:偏置不是正则项!关于模型函数为什么需要假设?因...原创 2020-04-27 14:37:27 · 388 阅读 · 0 评论 -
数据——变量
变量的分类常见的数据类型包括:定量变量定量变量(或数值变量,quantitative or numeric variable)定量变量(或分类变量/属性变量,qualitative, categorical or attribute variable)定量变量根据变量否离散变量(或非连续性变量,discrete or uncontinuous variable)连续变量(cont...原创 2020-04-26 12:58:06 · 1724 阅读 · 0 评论 -
2020 AI 算法工程师常见知识点整合
文章目录特征工程预处理特征选择降维机器学习深度学习NLPCVCoding数学综合知识点整理: 2020 AI 算法岗春招汇总 & 面经大全来了!点击接收你的招聘秘籍数据预测处理:合鲸:干货 | 教你一文掌握数据预处理 特征工程1.离散、连续特征一般怎么处理(onehot、归一化、why、方法 等);特征变换、构造/衍生新特征(woe、iv、统计量 等);特征筛选(离散...原创 2020-05-24 15:17:06 · 3408 阅读 · 0 评论 -
特征工程——一些知识点记录
标准化和归一化的区别?特征工程 中说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。但是,为什么依据”行“跟”列“来处理?以及依据”行“处理和”列“处理有什么区别?为了避免按照”行“来处理而导致可能发生的维...原创 2020-04-26 09:00:45 · 267 阅读 · 0 评论 -
机器学习算法/模型——集成学习
集成学习集成学习思想集成学习方法集成学习思想集成学习方法原创 2020-03-04 13:32:13 · 1530 阅读 · 0 评论 -
机器学习算法/模型——决策树(2)深入理解
决策树进阶概念概述理论训练算法递归分裂过程寻找最佳分裂叶子节点值的设定属性缺失问题剪枝算法概念概述决策树是最简单的机器学习算法,它易于实现,可解释性强,完全符合人类的直观思维,有着广泛的应用。决策树到底是什么?简单地讲,决策树是一棵二叉或多叉树(如果你对树的概念都不清楚,请先去学习数据结构课程),它对数据的属性进行判断,得到分类或回归结果。预测时,在树的内部节点处用某一属性值(特征向量的某一...原创 2020-03-02 21:46:48 · 594 阅读 · 0 评论 -
机器学习算法/模型——特征工程
特征工程特征工程数据对于机器学习来说,数据的重要性毋庸置疑,好比炒菜时的原材料直接决定了菜品的好坏。所谓的特征工程,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。简单来说就是为机器学习算法准备合适的训练数据和特征的过程——先清洗原始数据,再提取特征出或者进一步构造和生成新的特征,所以分为获取、选择和处理特征三个过程:特征获取:创造或者生成新特征主要包括...原创 2020-03-01 21:11:12 · 1795 阅读 · 0 评论 -
模型泛化:偏差、方差、噪声
模型泛化理论概论公式推导泛化误差 = 偏差 + 方差 + 噪声学习噪声:错误标记方差:模型的预测稳定性 - 数据扰动对模型的影响偏差:考察模型本身拟合能力经验误差与泛化能力之间的矛盾分析手段解决办法理论概论泛化误差/预测误差学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(nois...原创 2020-02-27 19:39:34 · 2638 阅读 · 0 评论 -
机器学习模型/算法—— 阶段性总结(2):关键概念/技术
关键点1. 机器学习的终极目标:期望风险最小损失函数:期望风险在实际中的定义期望风险:分类器真实风险最好的表达经验风险:期望风险在样本有限情况下的退化结构风险1. 机器学习的终极目标:期望风险最小损失函数:期望风险在实际中的定义风险这个词比较模糊,在实际风险定义中会依赖一个所谓的损失函数期望风险:分类器真实风险最好的表达期望风险是全局的,可以看做是真实风险的合理表示。它基于所有样本损失的...原创 2020-02-26 17:03:28 · 978 阅读 · 0 评论 -
机器学习算法/模型——阶段总结(3)——面试篇
面试基础光学不练也没什么用,而且容易产生很大的理解偏差,知识必须在题目中获得总结和升华。参考:机器学习与深度学习核心知识点总结 写在校园招聘即将开始时...原创 2020-02-26 15:23:22 · 360 阅读 · 1 评论 -
机器学习代码实践——数据——如何快速获取所需的实验数据
目录与机器学习相关数据格式通过 NumPy通过Sklearn与机器学习相关数据格式特征 X 的格式:(n_sample, n_feature)标签 y 的格式:(n_sample , 1)例如:对于只有一个特征的一元模型,X 的格式为 (n_sample , 1),y 的格式为(n_sample, 1),而并不是 (n_sample)和(n_sample)。注意下面两种方式的区别(第...原创 2020-02-26 10:35:13 · 489 阅读 · 0 评论 -
机器学习算法/模型——有监督到无监督(聚类):由 KNN 到 K-menas
聚类1. KNN(K-Nearest Neighbor)1.1 基本思想1.2 算法步骤2. 聚类(Clustering)3. K-means有监督学习和无监督学习,是机器学习两个大的类别。聚类算法属于无监督学习:训练数据只有输入变量 x 而没有输出变量 y 。无监督学习的目的是将这些训练数据潜在的结构或者分布找出来,以便于我们对这些数据有更多的了解。1. KNN(K-Nearest Ne...原创 2020-02-25 09:49:01 · 17234 阅读 · 7 评论 -
机器学习模型/算法—— 阶段性总结(1)模型框架:假设函数、目标函数和优化算法
目录异同点支持向量机异同点支持向量机在以概率论为核心的机器学习中,支持向量机(SVM)是一种较为特殊的方法。最大的差异在于,SVM其成立的基础并非做出极大似然估计,而是寻求一个分界线(本文使用“分界线”这一术语代指SVM Decision Boundary Hyper-plane)对数据集实现“最大分割间隔”。...原创 2020-02-24 20:21:28 · 2686 阅读 · 0 评论 -
机器学习算法/模型——有监督到无监督(降维):主成分分析(PCA)
主成分分析 PCA1. 背景:数据降维2. 主成分分析原理3. 求解主成分3.1 矩阵分解3.2 奇异值分解1. 背景:数据降维2. 主成分分析原理3. 求解主成分3.1 矩阵分解3.2 奇异值分解参考机器学习数据预处理:数据降维之PCA 数据预处理:PCA原理推导 数据降维处理:PCA之特征值分解法例子解析数据降维处理:PCA之奇异值分解(SVD)介绍 ...原创 2020-02-24 13:25:45 · 7616 阅读 · 0 评论 -
机器学习算法/模型——朴素贝叶斯分类
贝叶斯分类0. 概念/术语贝叶斯公式1. 朴素贝叶模型原理1.1朴素贝叶斯模型:将频率当成概率(不可靠)1.2 朴素贝叶斯模型:条件概率的参数估计2. 朴素贝叶斯的目标函数总结:0. 概念/术语贝叶斯公式贝叶斯定理:在 B 出现的前提下 A 出现的概率,等于 A 和 B 都出现的概率除以 B 出现的概率。我们希望确定一个具有某些特征的样本属于某类标签的概率,通常记为 P (L |特征 )...原创 2020-02-23 21:02:35 · 5398 阅读 · 0 评论 -
机器学习算法/模型——决策树(1)基本理论和代码实例
决策树1. 概念/术语2. 常用算法:分裂点选择依据ID3C4.5CART3. 决策树优化:剪枝3.1 剪枝原因(问题)3.2 剪枝方法一棵决策树(Decision Tree)是一个树结构(可以是二叉树或非二叉树),每个非叶节点对应一个特征,该节点的每个分支代表这个特征的一个取值,而每个叶节点存放一个类别或一个回归函数。决策树树模型由一组 if-then-else 规则构成。决策树的构造算法...原创 2020-02-23 12:39:37 · 894 阅读 · 0 评论 -
机器学习算法/模型——支持向量机
支持向量机线性SVM(软间隔的SVM)概念/术语核函数SVM模型支持向量机(简称SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归,甚至是异常值检测任务。支持向量机的主要目标是得到一条能用于分组的最佳分界线。线性SVM(软间隔的SVM)概念/术语超平面支持向量在寻找最佳分界线的过程中起了支持作用的数据点。硬间隔、软间隔硬间隔:正负样本之间的...原创 2020-02-22 19:10:24 · 4697 阅读 · 0 评论 -
机器学习算法/模型——逻辑回归
逻辑回归概念/术语假设函数建模过程逻辑回归模型损失函数优化算法代码实例逻辑回归类似于多元线性回归,只是结果是二元的。它使用多种变换将问题转换成可以拟 合线性模型的问题。概念/术语Logistic 函数一种能将属于某个类的概率映射到 ±∞ 范围上(而不是 0 到 1 之间)的函数。(注意并不是最终的比例)Logistic 函数 = 对数几率函数几率“成功”(1)与“不成功”(0)之间...原创 2020-02-21 19:48:18 · 757 阅读 · 0 评论 -
机器学习算法/模型——线性回归
线性回归0. 概念/术语1. 假设函数:2. 损失函数:平方误差函数3. 优化算法梯度下降法:求解函数极值相关概念矩阵求解0. 概念/术语线性回归模型是:利用线性函数对一个或多个自变量 (x 或 (x1,x2,…xk))和因变量(y)之间的关系进行拟合的模型。正确理解”线性“注意:“线性”的意思并非是 y 和 x 为直线关系!线性函数的定义是:一阶(或更低阶)多项式,或零多项式。...原创 2020-02-21 13:13:04 · 3640 阅读 · 0 评论 -
机器学习算法/模型——机器学习介绍
模型写在前面写在前面相较于仍然处于经验(“炼丹”)阶段的深度学习,传统的统计学习模型和方法已经具备了相对完善的理论基础。态度:即使目标是深度学习也要从机器学习开始,从统计学习方法学起。一方面深度学习与机器学习具有传承的关系,学习后者对于直观理解前者有极大帮助。另一方面,**统计学习方法建立在将概念“数字化”(向量化)的基础上,以数学公式和计算来表达概念之间的关联及转化关系。**机器学习是...原创 2020-02-18 19:56:18 · 1153 阅读 · 0 评论