简历及机器学习
weixin_41611045
这个作者很懒,什么都没留下…
展开
-
随机森林-解决多重共线性降维进行调参
我们在使用python的随机森林包时,会用到max_feature这个参数这个参数是我们进行选择样本特征的个数,如果当样本的特征较多时,比如有50-100个,我们选择auto,全部特征可以进行降维,即有的特征重要性过低的可以舍去。选择sqrt可以去除样本中特征之间多重共线性的干扰,sqrt代表每次选择根号n个特征进行建树。从而减少样本间多重共线性的干扰。...原创 2020-02-15 11:53:36 · 3764 阅读 · 0 评论 -
支持向量机预备知识(一)kkt条件、凸函数
一、kkt条件kkt条件是用来解决不等值约束条件下,求解极值的最优解的问题。1、无约束优化问题最优性条件若 min f(x) 可微,则其最优解的一阶必要条件为:2、 有约束优化问题最优性条件下面考虑如下带约束的优化问题其中 f,hi,gif,h_i,g_if,hi,gi可微且一阶导数连续,存在非负实数 和实数μi和λi\mu_i和\lambda_iμi和λi,若x∗x*x...转载 2019-11-06 15:31:57 · 1769 阅读 · 0 评论 -
logistic回归(二)logistic的正则化
aaa原创 2020-11-30 09:56:22 · 1837 阅读 · 0 评论 -
线性回归(二) 岭回归
一、岭回归这个即我们通过最小二乘法求出来的w ,但是求出来的矩阵可能存在一个问题,即X可能不是满秩矩阵(即变量之间存在着多重共线性),此时求出来的(XTX)(X^{T}X)(XTX)可能也是非满秩的,(即(XTX)(X^{T}X)(XTX)可能不可逆 ),即w可能无法求出解。或者存在多个无穷个解使得w满足最小误差。这里补充一个矩阵求逆的方法:设同理设一组变量a,b,c,d:求解方程组:...原创 2020-11-30 09:54:44 · 2314 阅读 · 0 评论 -
集成学习(三) 提升学习 adaboost、gbdt、xgboost
1、什么是梯度提升假定当前已经得到了m-1颗决策树,能否通过现有样本对第m颗决策树产生影响呢?答案是可以的一、Boosting与Adaboost在随机森林的构建过程中,由于各棵树之间是没有关系的,相对独立的;在构建 的过程中,构建第m棵子树的时候,不会考虑前面的m-1棵树。如果在构建第m棵子树的时候,考虑到前m-1棵子树的结果,会不会对最终结果产生有益 的影响? 各个决策树组成随机森林后...转载 2019-10-26 23:17:23 · 560 阅读 · 0 评论 -
机器学习面试题(二):距离度量(余弦与欧式距离的区别、为什么knn不用曼哈顿距离而要用欧式距离、knn与kmeans的区别)
1、欧式距离与余弦距离对于两个向量 A和B ,其余弦相似度定义为即两个向量夹角的余弦,关洼的是向量之间的角度关系,并不关心他们的绝对大小,真取值范围是[-1, 1]...原创 2020-11-30 09:56:03 · 2320 阅读 · 0 评论 -
机器学习面试题(三)模型评价指标、超参数调优、过拟合和欠拟合
如何评价一个模型的好坏呢,这里我们有如下几种方法:■ Holdout检验即将模型分为训练集与测试集进行检验,比方说,对于一个点击率预测模型,我们把样本按照 70%~30% 的 比例分成两部分,70% 的样本用于模型训练;30% 的样本用于模型验证,Holdout 检验的缺点很明显,即在验证集上计算出来的最后评估指标与原始分组有很 大关系。 交叉检验k-折交叉验证:首先将全部样本划分成k个大...原创 2019-10-10 22:28:19 · 3129 阅读 · 0 评论 -
聚类算法
目录:什么是聚类、相似度的度量公式、聚类的思想聚类的思想K-means聚类聚类算法效果评估(准确率、召回率等)层次聚类算法密度聚类算法一、什么是聚类及相似度的度量公式(1)什么是聚类聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分 为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小; 属于无监督学习 聚类算法的重点是计算样本项之间的相似...转载 2019-07-20 10:03:47 · 334 阅读 · 0 评论 -
logistic回归(一):logistic原理及推导
一、logistic回归当我们的因变量使分类变量的时候,我们可以采取logistic回归,在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;区别一个肿瘤是恶性的还是良性的。我们从二元的分类问题开始讨论。我们将因变量(dependant variable)可能属于的两个类分别称为负向类(negat...转载 2020-11-30 09:55:49 · 744 阅读 · 0 评论 -
支持向量机(一)
支持向量机本身是一个二元分类算法,是对感知机模型的一种扩展,现在svm支持线性分类和非线性分类的分类应用,我们也可以讲svm应用在多元分类领域当中。在不考虑集成学习算法,不考虑特定的数据集的时候,在分类算法中SVM可以说是特别优秀的。在感知机模型之中,我们可以找到多个分类的超平面将数据分开,并且优化时希望所有的点离超平面尽可能的远,但实际上 离超平面较远的点已经被正确分类了,所以这个是没有意义的...原创 2019-10-29 11:25:09 · 172 阅读 · 0 评论 -
线性回归 (一) 基本线性回归原理
一、线性回归回归算法是一种有监督算法回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观 测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函 数)来做属性(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个 函数使得参数之间的关系拟合性最好。 回归算法中算法(函数)的最终结果是一个连续的数据值,输入值(属性值)是一个d 维度的属性/数...原创 2020-11-22 20:41:29 · 3521 阅读 · 0 评论 -
集成学习(一) 决策树
一、信息熵H(X)就叫做随机变量X的信息熵信息熵公式的解读:如果随机变量x有m个取值,每个取值的概率为pip_ipi,那么这个随机变量x的信息熵为所有取值的概率乘以log以2为底pip_ipi的乘积。信息量:指的是一个样本/事件所蕴含的信息,如果一个事件的概率越大,那么就 可以认为该事件所蕴含的信息越少。极端情况下,比如:“太阳从东方升起”, 因为是确定事件,所以不携带任何信息量。信...转载 2019-10-20 22:45:01 · 384 阅读 · 0 评论 -
机器学习实战4(1):朴素贝叶斯:垃圾邮件的识别
一、朴素贝叶斯基础知识预备数学知识:1、求极值问题人工智能中最核心的数学环节是求出一个目标函数(object function)的最小值/最大值。求出一个函数最小是/最大值的方法很多,在这里我们介绍一个最经典的方法之一:直接求出极值点。这些极值点的共同特点是在这些点上的梯度为0, 如下图所示。这个图里面,有8个极值点,而且这些极值点中必然会存在最小值或者最大值(除去函数的左右最端点)。所以在...原创 2019-10-27 19:31:56 · 1242 阅读 · 0 评论 -
机器学习实战2(1):KNN算法与iris数据实现、利用欧式距离手动实现KNN
1、KNN算法例子转载 2019-06-29 18:06:23 · 603 阅读 · 0 评论