
机器学习
文章平均质量分 82
机器学习相关知识
zhurui_xiaozhuzaizai
想要浓密的秀发
展开
-
评价指标相关入口
一. 常用的优化方法逻辑回归本身是可以用公式求解的,但是因为需要求逆的复杂度太高,所以才引入了梯度下降算法。一阶方法:梯度下降、随机梯度下降、mini随机梯度下降降法。随机梯度下降不但速度上比原始梯度下降要快,局部最优化问题时可以一定程度上抑制局部最优解的发生。二阶方法:牛顿法、拟牛顿法:这里详细说一下牛顿法的基本原理和牛顿法的应用方式。牛顿法其实就是通过切线与x轴的交点不断更新切线的位置,直到达到曲线与x轴的交点得到方程解。在实际应用中我们因为常常要求解凸优化问题,也就是要求解函数原创 2021-03-15 19:51:28 · 2384 阅读 · 0 评论 -
剑指offer&top 100归类
数学面试题14:剪绳子3(n-3) > 2(n-2), n>5时,尽量剪3面试题16:数值的整数次方2的100次方二分。奇偶分别讨论,递归面试题43:从1到n整数中1出现的次数依此类推,从 1 至 10^ i ,在它们的左数第二位(右数第 i 位)中,任意的 X 都出现了 10^(i-1) 次。1、取第 i 位左边的数字(高位),乘以 10 ^(i−1) ,得到基础值 a 。2、取第 i 位数字,计算修正值:1、如果大于 X,则结果为 a+ 10 ^(i−1) 。原创 2021-10-19 11:31:50 · 280 阅读 · 0 评论 -
AUC理解
一个是ROC曲线的面积另外一个是统计意义。从统计学角度理解,AUC等于随机挑选一个正样本和负样本时,模型对正样本的预测分数大于负样本的预测分数的概率。原创 2024-07-25 11:39:42 · 1410 阅读 · 0 评论 -
分类常用的评价指标-二分类/多分类
查准率 Precision=TP/(TP+FP)」查全率Recall=TP/(TP+FN)」即为正例被判断为正例的概率TPR=TP/(TP+FN)」即为反例被判断为正例的概率FPR=FP/(TN+FP):ACC = 1-e样本失衡时,如何评价分类器的性能好坏?使用ROC曲线ROC曲线:ROC空间是一个以伪阳性率(FPR,false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表的平面。原创 2024-07-25 10:38:05 · 657 阅读 · 0 评论 -
文本生成指标评估
余弦相似度::::忠实度(即生成的数据样本是否接近原始样本)TransRate::::紧凑度(即每个类的样本是否足够紧凑以进行良好区分)生成的样本与label的紧凑度Z为生成的文本embedding, Y 为label"原创 2024-07-17 15:10:09 · 1174 阅读 · 0 评论 -
决策树- 随机森林/GBDT/XGBoost
随机森林单颗决策树缺点:易过拟合的缺点传统机器学习处理过拟合通常采用集成学习 (多颗树投票)随机森林的生成方法【在bagging的基础上+CART树】:1.从总数为N样本集中通过重采样的方式产生n个样本 (Bootstrap)2.假设样本特征数目为a,对n个样本选择其中k个特征, 用建立决策树的方式获得最佳分割点3.重复m次,产生m棵决策树4.对于分类问题,按多棵树分类器投票决定最终分类结果;对于回归问题,由多棵树预测值的均值决定最终预测结果随机森林的随机性1、每棵树的训练原创 2021-10-22 22:42:09 · 9884 阅读 · 0 评论 -
区间估计Bootstraping/Jackknife
Bootstraping(自助抽样法–区间估计):名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:(1) 采用重抽样技术从原始样本中抽取一定数量的样本,此过程允许重复抽样。 (2)根据抽出的样本计算给定的统计量T。 (3)重复上述N次(一般大于1000),得到N个统计量T。 (4)计算原创 2021-10-22 21:09:48 · 832 阅读 · 0 评论 -
KNN 与KMEANS算法
KNN算法k近邻(KNN)是一种基本分类与回归方法。其思路如下:给一个训练数据集和一个新的实例,在训练数据集中找出与这个新实例最近的k 个训练实例,然后统计最近的k 个训练实例中所属类别计数最多的那个类,就是新实例的类。它的特点是完全跟着数据走,没有数学模型可言。其流程如下所示:1、计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);2、对上面所有的距离值进行排序;3、选前k 个最小距离的样本;4、根据这k 个样本的标签进行投票,得到最后的分类类原创 2021-10-22 20:53:14 · 2592 阅读 · 0 评论 -
损失函数--回归分类
1.均方误差、平方损失——L2损失#criterion = nn.MSELoss()2.平均绝对误差——L1损失函数#criterion = nn.L1Loss()3.Huber损失——平滑平均绝对误差Smooth L1 Loss(Huber)#criterion = nn.SmoothL1Loss(reduction=‘sum’)4.Log-Cosh损失函数criterion = nn.HingeEmbeddingLoss()...原创 2021-06-18 16:54:39 · 947 阅读 · 0 评论 -
聚类算法概述
一.聚类分析的典型的应用场景1.目标用户的群体分类2.不同产品的价值组合3.探测发现孤立点,异常点:二.主要的聚类算法的分类(一)基于距离的方法:用距离来作为描述对象之间的相似性的依据1.基于划分的方法kmeans聚类方法:又叫K均值聚类,用计算出来的每一类对象的平均值作为新的类的中心点Ps:kmeans 算法对噪声与异常值比较敏感kmedios算法:又叫k中心点算法,该方法用最接近类中心的一个对象作为新的聚类中心PS:K中心点方法对于噪声与异常值没有kmeans算法敏感CLA原创 2021-04-20 18:43:15 · 1702 阅读 · 0 评论 -
损失函数
损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。0-1损失函数(zero-one loss)0-1损失是指预测值和目标值不相等为1, 否则为0:特点:(1)0-1损失函数直接对应分类判断错误的个数,但是它是一个非凸函数,不太适用.(2)感知机就是用的这种损失函数。但是相等这.翻译 2021-04-16 17:41:45 · 1285 阅读 · 0 评论 -
CNN, 池化, CNN压缩,RNN,LSTM, GRU
1 RNN为什么出现梯度爆炸和梯度消失由于RNN当中也存在链式求导规则,并且其中序列的长度位置。所以如果矩阵中有非常小的值,并且经过矩阵相乘N次之后,梯度值快速的以指数形式收缩,较远的时刻梯度变为0。如果矩阵的值非常大,就会出现梯度爆炸可以看出,「当W很小或者很大,同时i和j相差很远的时候」,由于公式里有一个「指数运算」,这个梯度就会出现异常,变得超大或者超小,也就是所谓的“梯度消失/梯度爆炸”问题。那梯度消失和梯度爆炸时分别有什么问题呢?「梯度消失」时,会让RNN在更原创 2021-03-22 22:32:28 · 1449 阅读 · 0 评论 -
求导方式
一. 激活函数为什么要引入激活函数?1.模拟人类神经元的传递规则2.限制每层之间的输出值范围3.为神经网络引入非线性的能力sigmoid激活函数在什么情况下适合使用 Sigmoid 激活函数呢?Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到1,因此它对每个神经元的输出进行了归一化;用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1,因此 Sigmoid函数非常合适;梯度平滑,避免「跳跃」的输出值;函数是可微的。这意味着可以找到任意两个点的 s原创 2021-03-16 20:30:30 · 1549 阅读 · 0 评论 -
激活函数
为什么要引入激活函数?1.模拟人类神经元的传递规则2.限制每层之间的输出值范围3.为神经网络引入非线性的能力sigmoid激活函数在什么情况下适合使用 Sigmoid 激活函数呢?Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到1,因此它对每个神经元的输出进行了归一化;用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1,因此 Sigmoid函数非常合适;梯度平滑,避免「跳跃」的输出值;函数是可微的。这意味着可以找到任意两个点的 sigmoid原创 2021-04-15 16:15:58 · 2724 阅读 · 0 评论 -
常见的参数初始化方法
根据网络结构选择GRAM-Schmidt高熵分布超参搜索uniformGaussian均值和方差不偏移:Xavier: 针对sigmoidHe/Kaiming: 针对relu我们常见的几种初始化方法是按照“正态分布随机初始化——对应为normal”和按照“均匀分布随机初始化——对应为uniform”,这里就不再多说了,这里介绍几种遇见较少的初始化方法。1、Glorot初始化方法— Xavier(1)正态化的Glorot初始化——glorot_normal Glor原创 2021-04-15 16:00:48 · 3379 阅读 · 3 评论 -
双曲空间与欧式空间
对于欧式空间,一个最简单的理解就是它是“平”的,比如二维空间就是一个平面在数学中,曲率为常数且为负数的空间被称为双曲空间。他是弯的Spotlight论文“Poincaré Embeddings for Learning Hierarchical Representations”来展开讨论双曲空间具有几个比较明显的特点,而且这些特点是欧式空间不具备的。第一个特点是,它具有表达层次结构的能力(如上面我们所讨论的例子一样)。比如我们的数据本身具有一定的层次结构,它则可以在双曲空间里面复原这种层次结构(当然数原创 2021-04-14 12:14:10 · 3789 阅读 · 0 评论 -
SVM
四 SVMSVM的基本思想:间隔最大化来得到最优分离超平面。方法是将这个问题形式化为一个凸二次规划问题,还可以等价位一个正则化的合页损失最小化问题。SVM又有硬间隔最大化和软间隔SVM两种。这时首先要考虑的是如何定义间隔,这就引出了函数间隔和几何间隔的概念(这里只说思路),我们选择了几何间隔作为距离评定标准(为什么要这样,怎么求出来的要知道),我们希望能够最大化与超平面之间的几何间隔x,同时要求所有点都大于这个值,通过一些变化就得到了我们常见的SVM表达式。接着我们发现定义出的x只是由个别几个支持向量原创 2021-04-11 23:54:32 · 1500 阅读 · 0 评论 -
--集成学习(bagging/boosting/stacking)
Bootstraping:名字来自成语“pull up by your ownbootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:(1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2)根据抽出的样本计算给定的统计量T。 (3) 重复上述N次(一般大于1000),得到N个统计量T。 (4)计算上述N个统计量T的样原创 2021-04-11 12:53:10 · 435 阅读 · 0 评论 -
评价指标-回归
回归常用的指标1)均方误差MSE:是反映估计值与被估计量之间差异程度的一种度量。2)RMSE均方根误差:观测值与真值偏差的平方和与观测次数m比值的平方根,用来衡量观测值同真值之间的偏差。3)SSE和方误差4)MAE:直接计算模型输出与真实值之间的平均绝对误差5)MAPE:不仅考虑预测值与真实值误差,还考虑了误差与真实值之间的比例。6)平均平方百分比误差7)决定系数 分类常用的性能度量指标精确率、召回率、F1、TPR、FPR预测为真真实为真TP(true posit原创 2021-04-09 14:20:23 · 392 阅读 · 1 评论 -
逻辑回归
https://github.com/sladesha/Reflection_Summary/blob/master/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92/lr.md#L164https://zhuanlan.zhihu.com/p/51279024https://zhuanlan.zhihu.com/p/74874291介绍Logistic Regression 虽然被称为回归,但其实原创 2021-04-09 12:58:19 · 556 阅读 · 0 评论 -
线性回归知识点
线性回归是什么是一种预测模型,利用各个特征的数值去预测目标值。线性回归的主要思想是给每一个特征分配一个权值,最终的预测结果是每个特征值与权值的乘机之和再加上偏置。所以训练的目标是找到各个特征的最佳权值和偏置,使得误差最小。线性回归的假设前提是噪声符合正态分布。线性回归也可以做分类,但是效果不好。线性回归的五大假设https://blog.csdn.net/Noob_daniel/article/details/760878291.特征和标签呈线性关系。2.误差之间相互独立3.自变量相互独立.原创 2021-04-09 12:54:48 · 2506 阅读 · 0 评论 -
决策树算法
决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。.原创 2021-04-09 12:52:36 · 2131 阅读 · 0 评论 -
正则
L1正则,先验符合laplace分布L2正则,先验符合Gaussian分布两者都是通过加上一个和项来限制参数大小,却有不同的效果L1 正则化更适用于特征选择,L2 正则化更适用于防止模型过拟合。L2-Norm(岭回归(Ridge Regression),即加了L2-norm正则化的线性回归)L1-Norm(LASSO回归,即加了L1-norm的惩罚项的线性回归。)L1正则化不可导的处理方法1、坐标轴下降法1)坐标轴下降法进行参数更新时,每次总是固定另外m-1个值,.原创 2021-04-08 18:46:16 · 103 阅读 · 0 评论 -
过拟合与欠拟合
过拟合和欠拟合现象怎样判断过拟合欠拟合过拟合【泛化能力差】欠拟合:【训练和预测时表现都不好】方差和偏差的解释欠拟合会导致高 Bias ,过拟合会导致高 Variance产生的原因【训练数据一般都是现实练数据的子集。并且样本中存在噪声数据,由于采样错误,导致样本的数据不能正确的反应现实场景和业务】【模型太复杂,过度的学习到了样本里的噪声数据,并不能很好表达真实输入输出之间的关系】因为参数太多,会导致我们的模型复杂度上升,容易过拟合,权值学习迭代次数足够多(Overtraining),.原创 2021-04-08 18:37:17 · 177 阅读 · 0 评论 -
怎样解决样本不平衡问题
什么是样本不均衡问题定义:数据集中,每个类别下的样本数目相差很大(数量级上的差距)。样本类别分布不均衡导致的危害?样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性会很差。主要三个方面,数据,模型和评估方法。数据上过采样和欠采样,使之均衡;模型上选对样本不均衡问题不敏感的模型,集成技术,如决策树,不能用KNN;或者调整分类阈值,使得更倾向与类别少的数据评.原创 2021-04-08 13:03:22 · 2106 阅读 · 0 评论 -
常用的optimizer::[梯度下降SGD,牛顿法,ada系列(adagrad, rmsprop,adadelta,adam),lion, tiger, muon]+炼丹策略
逻辑回归本身是可以用公式求解的,但是因为需要求逆的复杂度太高,所以才引入了梯度下降算法。一阶方法:梯度下降、随机梯度下降、mini随机梯度下降降法。随机梯度下降不但速度上比原始梯度下降要快,局部最优化问题时可以一定程度上抑制局部最优解的发生。二阶方法:牛顿法、拟牛顿法:这里详细说一下牛顿法的基本原理和牛顿法的应用方式。牛顿法其实就是通过切线与x轴的交点不断更新切线的位置,直到达到曲线与x轴的交点得到方程解。在实际应用中我们因为常常要求解凸优化问题,也就是要求解函数一阶导数为0的位置,而.原创 2021-04-08 12:02:41 · 3734 阅读 · 0 评论 -
距离度量
汇总欧氏距离,余弦距离,汉明距离,曼哈顿距离,明科夫斯基距离,切比雪夫距离,杰卡得距离,,,,,欧氏距离使用勾股定理的点的笛卡尔坐标计算缺点并不是尺度不变的,计算出的距离可能会根据特征的单位而有所偏斜。通常情况下,在使用这种距离测量之前,需要对数据进行归一化。此外,随着数据维度的增加,欧几里得距离的作用就越小。这与维度的诅咒有关,它涉及到高维空间的概念,并不像我们直观地期望的那样,从二维或三维空间中发挥作用。当你有低维数据,并且向量的大小很重要,需要测量时,欧氏距离的效果非常好。如.原创 2021-04-08 12:01:30 · 326 阅读 · 0 评论 -
特征归一化/标准化/BN/LN/RMS-norm/key-norm/Query-Norm?
特征归一化方法是将原本特征都统一到一个大致的区间。例如【0,1】,常用归一化方法有:min-max-scaling:[0,1]等比例缩放z-score noemalization,映射到均值为0,标准差为1的分布上为什么要做特征归一化在采用梯度更新的学习方法(包括线性回归,逻辑回归,支持向量机,神经网络)等求解过程中。为归一化参数在学习时,梯度下降较为抖动,模型难以收敛,而归一化可以使梯度下降较为稳定,进而减小梯度下降的次数,模型也能很快收敛。...原创 2021-04-08 11:59:22 · 676 阅读 · 0 评论 -
机器学习相关知识点--朴素贝叶斯
github机器学习总结一 线性回归线性回归是什么是一种预测模型,利用各个特征的数值去预测目标值。线性回归的主要思想是给每一个特征分配一个权值,最终的预测结果是每个特征值与权值的乘机之和再加上偏置。所以训练的目标是找到各个特征的最佳权值和偏置,使得误差最小。线性回归的假设前提是噪声符合正态分布。线性回归也可以做分类,但是效果不好。线性回归的五大假设https://blog.csdn.net/Noob_daniel/article/details/760878291.特征和标签呈线性关系。原创 2021-02-19 15:30:03 · 2341 阅读 · 0 评论 -
机器学习之白板推到系列笔记2---------高斯分布
1 高斯分布线性高斯模型例如:卡尔曼滤波;PCA降维2 定义变量X:数据。N个样本,每个样本P维xi独立同分布(iid),都属于高斯分布3 一维高斯分布3.1 概率密度函数公式如下3.2 概率密度函数图示如下3.3 对均值和方差的最大后验概率估计对均值和方差的最大后验概率估计的具体过程为什么是有偏估计所以,估计出来的高斯分布的误差比实际的误差要小真实估计的是x到x均值的方差,而不是x到miu的方差4 高维高斯分布概率密度函数如下:每个样本x为随机向量p维miu为原创 2020-05-24 11:57:25 · 801 阅读 · 0 评论 -
机器学习白板推导系列学习笔记1----频率派与贝叶斯派
1 定义参数X:数据。N个样本,每个样本P维:参数。2 频率派认为为未知的常量,X 为随机变量目标:估计得到极大似然估计:=由此发展出的为统计机器学习,一般是一个优化问题:建模--->loss function----->具体算法(梯度下降等)3 贝叶斯派认为为随机变量,X 为随机变量,~p()先验,服从分布。目标:求出最大的那个概率分布由此发展出的为概率图模型,一般是一个求积分问题:MCMC(蒙特卡洛估计)贝叶斯定...原创 2020-05-23 10:17:50 · 501 阅读 · 0 评论 -
优化问题之无约束优化
1 无约束问题定义min fo(x),其中fo(x)为二次可微凸函数。假定该问题可解,即:一定存在最优解x*2 迭代算法求解一般情况下,优化问题都是采用迭代算法求解。当k趋近于无穷大时,f(x(k))趋近于最优值p*当f(x(k))-p* <= e时算法将终止。e>0为我们所能允许的误差x(k+1)=x(k)+s(k)+d(k)d(k)为k时刻的搜索方向,s(k)为k时刻的搜索步长一个通用的下降算法可以描述为给定初始点 x0重复进行:1 确定下降方向d(k)2 确定步原创 2020-05-22 23:47:25 · 3281 阅读 · 0 评论 -
凸优化基础
一:凸集1 定义:一个集合中,任意两点之间的连线仍在该集合内,称该集合为凸集数学上,取两点x, y两点连线的线段上任意一点可表示为:z=y+α(x-y)=αx+(1-α)y , 其中,α在[0,1]之间2常见的凸集:任意直线组成的集合,任意线段组成集合,欧几里得球和椭球,超平面和半空间,多个半空间构成的多面体Rn空间:也称为n维全空间R^n空间的子空间::: hljs-center图1:aTx=b的超平面以及由此超平面分开的两个半空间:::二:凸函数1 定义:函数的定义域为凸集原创 2020-05-16 01:31:29 · 780 阅读 · 0 评论 -
数据预处理
step1 导入所需的库step2 导入数据集step3 处理丢失数据以及其他异常数据step4 解析分类数据(转化为数字)step5 拆分训练集,验证集,测试集。可根据0.8: 0.1 :0.1拆分拆分时注意随机打乱。如果数据分布不均衡可在这里按照数据分布比例筛选训练集和测试集,使之与实际比例相同常用的python包:numpy 数据处理,数组计算pandas 结...原创 2020-04-14 14:51:02 · 133 阅读 · 0 评论 -
机器学习相关博文与资料汇总---不定期更新
机器学习100天中文版https://github.com/MLEveryday/100-Days-Of-ML-Code原创 2020-04-14 14:42:00 · 129 阅读 · 0 评论