机器学习
文章平均质量分 51
-永不妥协-
爱生活,爱老婆。
展开
-
一分钟巧记精准率、召回率
学习过机器学习算法的同学一定不会对精准率、召回率陌生。精准率(precision)和召回率(recall)是对二分类模型效果评价的指标。下图为精准率和召回率的计算公式:由于这里面涉及到TP、FN、FP、TN这四个指标...原创 2020-05-27 08:29:54 · 1276 阅读 · 0 评论 -
类别特征的独热编码和二进制编码
我们在建模之前,一般需要对数据进行预处理。对于分类变量,一般模型不能直接作为变量输入,需要进行编码。分类变量常用编码方式如下:有序变量:序号编码无序变量:独热编码、二进制编码下面为大家介绍独热编码和二进制编码之间的区别。1)独热编码:独热编码会将变量的不同取值(N种取值)分别赋予一个只有1位为0的N维向量。例如星期,共有7个取值,独热编码会把它编码成一个7维稀疏向量。星期一表示为(...原创 2019-09-23 19:28:30 · 3371 阅读 · 0 评论 -
变量相关性热力图
我们在建模的时候为了避免多重共线性一般都会分析变量之间的相关性。衡量变量相关性我们一般都是计算变量两两之间的皮尔逊相关系数( Pearson correlation coefficient)。为了能够更好的展现变量之间的相关性,下面为大家介绍如何利用热力图来表示变量之间的相关性。def corr_map(df): var_corr = df.corr() mask = np....原创 2019-04-13 10:41:36 · 15391 阅读 · 1 评论 -
利用Shap Value挑选变量
#Shap Valueclf = lgb.LGBMClassifier(objective='binary',random_state=1024).fit(X_train,y_train)explainer = shap.TreeExplainer(clf)shap_values = explainer.shap_values(X_train)shap.summary_plot(...原创 2019-03-19 09:07:51 · 8455 阅读 · 4 评论 -
利用PermutationImportance挑选变量
我们在构建树类模型(XGBoost、LightGBM等)时,如果想要知道哪些变量比较重要的话。可以通过模型的feature_importances_方法来获取特征重要性。例如LightGBM的feature_importances_可以通过特征的分裂次数或利用该特征分裂后的增益来衡量。一般情况下,不同的衡量准则得到的特征重要性顺序会有差异。我一般是通过多种评价标准来交叉选择特征。博主认为,若一个特...原创 2019-03-19 08:57:39 · 13432 阅读 · 0 评论 -
树类模型特征重要性计算方法
我们在使用GBDT、RF、Xgboost等树类模型建模时,都会有一个feature_importance的方法来返回特征重要性。下面总结了不同树类模型计算特征重要性的原理:Random Foreast 袋外数据错误率 基尼指数 GBDT 基尼指数 Xgboost gain:is the average gain of splits which use the featur...原创 2018-12-18 23:39:36 · 3235 阅读 · 0 评论 -
一分钟理解softmax函数(超简单)
做过多分类任务的同学一定都知道softmax函数。softmax函数,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。下图展示了softmax的计算方法:下面为大家解释一下为什么softmax是这种形式。首先,我们知道概率有两个性质:1)预测的概率为非负数;2)各种预测结果概率之和等于1。softmax就是将在负无穷到正无...原创 2018-11-28 16:39:09 · 389168 阅读 · 110 评论 -
机器学习笔记-朴素贝叶斯
朴素:假设所有特征独立;贝叶斯:贝叶斯定理 朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(y),并为每个属性估计条件概率P(x(i)|y) 实例被划分到后验概率最大的类中,后验分布 = 先验分布 + 数据(似然) 贝叶斯估计:避免要估计的概率值为0的情况 拉普拉斯平滑:贝叶斯估计的特殊情况,λ=1 贝叶斯分类其实是利用用贝叶斯公式,算出每种情况下发生的概率,再取...原创 2018-11-20 16:42:06 · 810 阅读 · 0 评论 -
机器学习笔记-K近邻
k近邻法不具有显示的学习过程,是一种懒惰学习 即可分类,又可回归 模型由三个基本要素——距离度量、k值的选择、分类决策规则决定 kd树是二叉树,表示对k维空间的一个划分。是一种便于对k维空间中的数据进行快速检索的数据结构 构造kd树 搜索kd树 http://blog.csdn.net/app_12062011/article/details/51986805 构造kd树,相...原创 2018-09-26 23:22:50 · 623 阅读 · 0 评论 -
机器学习笔记-感知机
感知机的解不唯一,与初始值和选取的误分类点有关 感知机学习算法包括原始形式和对偶形式 对偶形式是对算法执行速度的优化,引入了Gram矩阵,达到一次计算,多次使用的效果 损失函数为误分类点到超平面距离之和(凸函数) 参数通过随机梯度下降法来确定(每次使用一个误分类点)对线性可分数据集,感知机算法收敛,即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型 当训练集线...原创 2018-09-14 15:52:35 · 757 阅读 · 0 评论 -
机器学习中的信息量与熵
我们在学习机器学习算法的时候经常听到自信息、互信息、条件熵、交叉熵等概念。下面为我在学习过程中总结的信息量和熵的相关概念。信息量:度量的是一个具体事件发生所带来的信息熵:在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望目录目录信息量的相关概念有:自信息、互信息自信息:I(X)互信息:I(X;Y)熵:...原创 2018-09-07 16:41:54 · 2320 阅读 · 0 评论 -
频率学派(Frequentists) 、贝叶斯学派(Bayesians)
数学与统计学最大的区别在于数学研究的是变量,而统计学研究的是随机变量 频率学派把未知参数看作普通变量(固定值),把样本看作随机变量;而贝叶斯学派把一切变量看作随机变量 贝叶斯论善于利用过去的知识和抽样数据,而频率论仅仅利用抽样数据。因此贝叶斯推论中前一次得到的后验概率分布可以作为后一次的先验概率 频率学派与贝叶斯学派的区别主要是是否允许先验概率分布的使用 贝叶斯派因为所有的参数都是随机变量...原创 2018-08-08 17:37:06 · 5685 阅读 · 0 评论 -
SVM个人总结
最近又将SVM的知识温习了一遍,又有了新的收获。归纳总结如下:目标:寻求几何间隔最大化平面单位化函数间隔引入拉格朗日函数SMO算法PS:由于公式编辑比较麻烦,所以采用了手写的方式参考资料:《机器学习》-周志华 《统计学习方法》-李航 http://www.cnblogs.com/pinard/p/6097604.html...原创 2018-04-13 10:55:01 · 789 阅读 · 1 评论 -
合页损失函数的理解
在学习支持向量机的过程中,我们知道其损失函数为合页损失函数。至于为什么叫这个名字,李航老师的《统计学习方法》上是这么说的:由于函数形状像一个合页,故命合页损失函数。下图为合页损失函数的图像(取自《统计学习方法》): 之前对损失函数的意义一直不是很懂。今天,在看了吴恩达老师的《机器学习》相关视频后,又读了《统计学习方法》的相关内容。对合页损失函数有了自己的理解:横轴表示函数...原创 2018-03-19 17:49:55 · 21597 阅读 · 3 评论 -
模型的过拟合与欠拟合
在建模的过程中,常常会有模型表现不尽人意的情况。模型表现不好,无非就是两种情况:过拟合(overfitting)和欠拟合(underfitting)。我们需要弄清楚模型表现不好是具体哪一类,这样才能针对不同的原因寻找最优的解决办法,不做无用功。下表为大家总结了模型过拟合和欠拟合的原因,表现和解决办法: 1. 欠拟合欠拟合就是模型没有很好地捕捉到数据特征,不能够很好地拟合数据...原创 2018-01-24 14:10:29 · 2305 阅读 · 0 评论 -
准确率、精准率和召回率的理解
我们在在分类任务时,经常会对模型结果进行评估。评估模型好坏的指标有AUC、KS值等等。这些指标是通过预测概率进行计算的。而准确率、精准率和召回率也通过混淆矩阵计算出来的。下图是对混淆矩阵的介绍: 其中,TP:样本为正,预测结果为正;FP:样本为负,预测结果为正;TN:样本为负,预测结果为负;FN:样本为正,预测结果为负。准确率、精准率和...原创 2017-09-29 13:46:56 · 72733 阅读 · 8 评论