![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 91
小智rando
这个作者很懒,什么都没留下…
展开
-
ROC曲线、AUC详解
针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况.(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)(2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN)(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)(4)若一...原创 2019-03-29 18:01:16 · 1819 阅读 · 0 评论 -
XGBoost
xgboost既可以做回归也可以做分类我们知道对于单个的决策树模型容易出现过拟合,计算的结果有些绝对,并且不能在实际中有效应用。所以出现了集成学习方法。如下图,通过两棵树组合进行玩游戏的得分值预测。其中tree1中对小男生的预测分值为2,tree2对小男生的预测分值为0.9。则该小男生的最后得分值为2.9,实现了回归任务。将上面集成学习方法推广到一般情况,可知其预测模型为:xgboost...原创 2019-08-22 17:03:12 · 444 阅读 · 0 评论 -
SVM 公式推导
1、SVM思想(1)SVM算法的依据就是分类器B的分类间隔比分类器C的分类间隔大。这里涉及到第一个SVM独有的概念”分类间隔”。在保证决策面方向不变且不会出现错分样本的情况下移动决策面,会在原来的决策面两侧找到两个极限位置(越过该位置就会产生错分现象),如虚线所示。虚线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定。而这两条平行虚线正中间的分界线就是在保持当前决策面方向不变的前提下的...原创 2019-08-22 18:13:07 · 1303 阅读 · 0 评论 -
准确率(Precision)、精确率、召回率(Recall)、F值(F-Measure)
下面简单列举几种常用的推荐系统评测指标:准确率、精确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。不妨看看这些指标的定义先:TP-将正类预测为正类FN-将正类预测为负类FP-将负类预测位正类TN-将负类预测位负类准确率(正确率)=所有预测正确的样本/总的样本 (TP+TN)/总精确率= 将正类预测为正类 / 所有预测为正类 TP/(TP+FP)召回率 = 将...转载 2019-08-26 16:18:35 · 710 阅读 · 0 评论 -
xgboost调参
Xgboost参数‘booster’:‘gbtree’, 提升树‘objective’: ‘multi:softmax’, 多分类的问题‘num_class’:10, 类别数,与 multisoftmax 并用‘gamma’:损失下降多少才进行分裂-(即xgboost公式推导中的,类似于信息增益)‘max_depth’:12, 构建树的深度,越大越容易过拟合‘lambda’:2, ...原创 2019-08-26 16:50:07 · 350 阅读 · 0 评论 -
数据不平衡样本处理-SMOTE
类别不平衡问题在很多场景中存在,例如欺诈检测,风控识别,在这些样本中,黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。上采样(过采样)和下采样(负采样)策略是解决类别不平衡问题的基本方法之一。上采样即增加少数类样本的数量,下采样即减少多数类样本以获取相对平衡的数据集。SMOTE算法是用的比较多的一种上采样算法,能够提升训练精度(1)对于少数类中每一个样本x,找出离它最近的...原创 2019-08-28 11:21:39 · 1342 阅读 · 0 评论 -
GBDT和XGBoost的区别
传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。xgboost在代价函数里加入了正则项,用...原创 2019-09-07 12:57:09 · 529 阅读 · 0 评论 -
SVM相关问题
• 核函数选择:(1)如果特征维数很高,往往线性可分(SVM解决非线性分类问题的思路就是将样本映射到更高维的特征空间中),可以采用LR或者线性核的SVM;(2)如果样本数量很多,由于求解最优化问题的时候,目标函数涉及两两样本计算内积,使用高斯核明显计算量会大于线性核,所以手动添加一些特征,使得线性可分,然后可以用LR或者线性核的SVM;(3)如果不满足上述两点,即特征维数少,样本数量正常,可...原创 2019-09-07 16:44:20 · 576 阅读 · 0 评论 -
SVM-SMO推导
当固定了a3、a4…an之后,只有a1,a2为变量,由约束项使a1代表a2,得到只含一个变量的一元函数再对只含一个变量的一元函数求导,得到a2:再带回原式,得到a1,但此时a1_new、a2_new和a1_old、a2_old是有一定关系的:注意到中含有yi即真实值,由此我们算得预测的值和真实值的误差Ei,将Ei带回等式得到a_new和a_old的关系:最后我们再看一下前...原创 2019-09-08 13:01:06 · 207 阅读 · 0 评论 -
L1L2正则化的选择
首先了解范数:范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:L0范数表示非零元素的个数L1范数当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。L2范数当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。加入正则化则减小模型复杂度:L0范数限制非零参数个数L1...原创 2019-09-08 15:25:12 · 1629 阅读 · 1 评论 -
LR相关问题
LR和SVM1、LR采用log损失,SVM采用合页损失。2、LR对异常值敏感,SVM对异常值不敏感。3、在训练集较小时,SVM较适用,而LR需要较多的样本。4、LR模型找到的那个超平面,是尽量让所有点都远离他,而SVM寻找的那个超平面,是只让最靠近中间分割线的那些点尽量远离,即只用到那些支持向量的样本。5、对非线性问题的处理方式不同,LR主要靠特征构造,必须组合交叉特征,特征离散化。S...原创 2019-09-11 15:10:42 · 464 阅读 · 0 评论 -
损失函数
一、摘要本文主要总结一下常见的损失函数,包括:MSE均方误差损失函数、SVM合页损失函数、Cross Entropy交叉熵损失函数、目标检测中常用的Smooth L1损失函数。其中还会涉及到梯度消失、梯度爆炸等问题:ESM均方误差+Sigmoid激活函数会导致学习缓慢;Smooth L1损失是为了解决梯度爆炸问题。仅供参考。二、均方误差损失2.1 均方差损失函数的定义:均方差损失函数常用在...转载 2019-09-22 17:27:25 · 1171 阅读 · 0 评论 -
贝叶斯
贝叶斯方法的提出贝叶斯派既然把θ看做是一个随机变量,所以要计算θ的分布,便得事先知道θ的无条件分布,即在有样本之前(或观察到X之前),θ有着怎样的分布呢?比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布,或的无条件分布。至...原创 2019-09-23 16:31:00 · 248 阅读 · 0 评论 -
AdaBoost-code
link创建一个Adaboost_Demonstration类:初始化参数:学习率,权重=1/Nclass Adaboost_Demonstration: def __init__(self, X, y, learning_rate=1.): """ 输入的X为N*2矩阵, y为一维向量, y的值只能取1或-1 :param X: 数据点...原创 2019-08-22 14:29:02 · 164 阅读 · 0 评论 -
AdaBoost
Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。 每...原创 2019-08-21 22:46:09 · 151 阅读 · 0 评论 -
数据挖掘流程
数据挖掘流程:(一)数据读取:读取数据,并进行展示统计数据各项指标明确数据规模与要完成任务(二)特征理解分析单特征分析,逐个变量分析其对结果的影响多变量统计分析,综合考虑多种情况影响统计绘图得出结论(三)数据清洗与预处理对缺失值进行填充特征标准化/归一化筛选有价值的特征分析特征之间的相关性(四)建立模型特征数据与标签准备数据集切分多种建模算法对比集...原创 2019-05-22 16:02:46 · 412 阅读 · 0 评论 -
标准化和归一化
1 概念归一化:1)把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 标准化:在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,...转载 2019-05-22 15:46:21 · 2399 阅读 · 0 评论 -
DataFrame
https://www.cnblogs.com/IvyWong/p/9203981.html转载 2019-04-25 12:07:08 · 133 阅读 · 0 评论 -
时间序列与因素回归的区别
浅谈时间序列与因素回归这篇想谈谈时间序列和因素回归的关系,什么时候两个可以相互替代,什么时候不能相互替代。什么是时间序列?时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。先上个时间序列的图来帮助理解该图是某个产品指标在最近两年内每个月变化的趋势。图形能给出一个主观感受,尤其是加入目标线后,能知...转载 2019-04-26 13:50:21 · 4794 阅读 · 0 评论 -
推荐系统
协同过滤1、相似度计算:(1)KNN:找出距离A最近的一些用户根据不同用户对一些商品的评分,通过计算欧式距离,找出距离最近的其他K个用户(2)距离计算:皮尔逊:(1)协方差:若x,y都在负值,则各自与均值的差相乘为正数,为正相关若x,y一正一负,则各自与均值的差相乘为负数,为负相关协方差的值在[-1,+1]之间,接近+1为完全正相关,否则负相关*中间直线为均值(2)...原创 2019-06-22 11:52:04 · 243 阅读 · 0 评论 -
交叉熵损失
https://blog.csdn.net/weixin_37567451/article/details/80895309转载 2019-07-23 21:35:28 · 111 阅读 · 0 评论 -
线性回归
1、线性回归回归的意思是用一条直线来概括所有点的分布规律,并不是来描述所有点的函数,因为不可能存在一条直线连接所有的散列点.所以我们计算出的值是有误差的,或者说我们回归出的这条直线是有误差的.我们回归出的这条线的目的是用来预测下一个点的位置.2、最大似然估计最大似然估计的意思就是最大可能性估计,其内容为:如果两件事A,B相互独立,那么A和B同时发生的概率满足公式P(A , B) = P...原创 2019-07-23 14:20:41 · 455 阅读 · 0 评论 -
Logistic regression
1、逻辑回归从名字来理解逻辑回归.在逻辑回归中,逻辑一词是logistics [lə’dʒɪstɪks]的音译字,并不是因为这个算法是突出逻辑的特性.样本x是有n维的,每一维代表样本的一个特征,每一特征在判断x属于哪一类时所占的权重不一样,所以首先需要对x的各个维度(即特征向量的每一维)加权值w(这里的w未知,逻辑回归的目的就是求出这个w权重向量,表示对特征向量每一维所占的权重)算出一个作为判...原创 2019-07-23 15:13:24 · 475 阅读 · 0 评论 -
SVM 核函数
4、核函数:在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。而在我们遇到核函数之前,如果用原始的方法,那么在用线性学习器学习一个非线性关系,需要选择一个非线性特征集,并且将数据写成新的表达形式,这等价于应用一个固定的非线性映射,将数据映射到特征空间,在特征空...转载 2019-08-23 17:35:28 · 658 阅读 · 0 评论 -
KNN
KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。下面通过一个简单的例子说明一下:如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆...原创 2019-08-21 14:56:54 · 232 阅读 · 0 评论 -
决策树
1、树模型决策树:从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归2、树的构造根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果1) 开始:构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按着这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。2) 如果这些子集已经能够被基本正确分类...原创 2019-08-21 17:23:20 · 414 阅读 · 0 评论 -
集成学习概述
集成学习有两个分类,一个是个体学习器存在强依赖关系、必须串行生成的序列化方法,以Boosting为代表。另外一种是个体学习器不存在强依赖关系、可同时生成的并行化方法,以Bagging和随机森林(Random Forest)为代表。Bagging模型全称: bootstrap aggregation(并行训练一堆分类器),代表:随机森林对于这里的随机采样有必要做进一步的介绍,这里一般采用的是...原创 2019-08-21 21:01:31 · 469 阅读 · 0 评论 -
PCA
PCA思想:将一组数据换到新的基上,得到新的一种特征表达方式z=wTx目的:提取最有价值的信息(基于方差)其中,z为低维矩阵,x为高维矩阵,w为两者之间的映射关系。假如我们有二维数据(原始数据有两个特征轴——特征1和特征2)如下图所示,样本点分布为斜45°的蓝色椭圆区域。PCA算法认为斜45°为主要线性分量,与之正交的虚线是次要线性分量(应当舍去以达到降维的目的)首先了解一些概念:内...原创 2019-09-29 15:03:02 · 253 阅读 · 0 评论