机器学习
368chen
这个作者很懒,什么都没留下…
展开
-
sklearn 中指标计算公式
TP:正例预测正确的个数FP:负例预测错误的个数TN:负例预测正确的个数FN:正例预测错误的个数1. accuracy_score(y_true,y_pred)准确率(accuracy)是所有预测对的right/all例子:>>>y_pred = [0, 2, 1, 3]>>>y_true = [0, 1, 2, 3]>>>accuracy_score(y_true, y_pred)0.52.prec...原创 2020-08-13 17:13:22 · 1743 阅读 · 0 评论 -
比赛总结
1https://cloud.tencent.com/developer/article/1505687原创 2020-06-26 17:09:23 · 279 阅读 · 0 评论 -
KNN-kd 树
高维查找结果:B 树: 是查找等于一个点或者一个区间之间有哪些元素KD 树:查找块中二维的点,应用:基于位置的查找kd -树构造: 使用垂直/水平线 把点集递归分割成两部分,在偶数层使用水平线,奇数层使用垂直线,每个叶子为一个点相当于两个二叉树的交叠kd- 树查询: 递归的访问交叉查询的区域报告在树/结点中且在查询中完全包含的点...原创 2020-03-29 17:57:02 · 391 阅读 · 0 评论 -
ID3 ,C4.5 CART 三种算法的优缺点
ID3 算法的核心是最大信息熵增益, 原则选择划分当前数据集的最好特征,信息熵是信息论里面的,是信息的度量方式,不确定度越大或者说越混乱,熵就越大,在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱” 的数据的熵(混乱度) 减少,按照不同特征划分数据熵减少的程度会不一样,在ID3中选择熵减少程度最大的特征来划分数据(贪心) ,也就是“ 最大信息熵增益” 原则。缺点:只能处理离散型属性,...原创 2019-10-25 10:18:23 · 5240 阅读 · 0 评论 -
RF,GBDT ,XGBoost 特征选择方法
RF,GBDT,XGboost 都可以做特征选择,属于特征选择中的嵌入式方法,比如在sklearn 中,可以用属性feature_importances_ 去查特征的重要度。如何计算的1 随机森林用袋外数据OOB 做预测,随机森林在每次重抽样建立决策树时,都会有一些样本没有被选中,那么就可以用这些样本做交叉验证,这也是随机森林的优点之一,它可以不用做交叉验证,直接用oob_score_ ...原创 2019-09-16 11:55:02 · 861 阅读 · 0 评论 -
机器学习-高斯牛顿迭代法
1 是非线性回归模型中求回归参数进行最小二乘的一种迭代方法,该法使用泰勒级展开式是近似的代替非线性回归模型,然后通过多次迭代,多次修正回归系数,使回归系数不断逼近非线性回归模型的最佳回归系数,最后使原模型残差平方和达到最小。其直观思想是先选取一个参数向量的参数值β,若函数ft(Xt,β)在β0 附近有连续二阶偏导数,则在β0的邻域内可近似地将ft(Xt,β)看作是线性,因而可近似地用线性最小二乘法...原创 2019-09-10 15:47:13 · 2359 阅读 · 0 评论 -
贝叶斯估计和极大似然估计的区别
1 如何求类条件概率密度:贝叶斯决策中关键便在于知道后验概率,那么问题便在于求解类条件概率密度。答案便是将类条件概率密度进行参数化。2 最大似然估计和贝叶斯估计参数估计鉴于类条件概率密度难求,我们将其进行参数化,这样我们遍只需要对参数进行求解就行了,问题难度将大大降低。 比如我们假设类条件概率密度p(x|w) 是一个多元正太分布,那么我们就可以把问题从估计完全未知的概率目的p(x|w)...原创 2019-09-10 16:48:11 · 2328 阅读 · 0 评论 -
机器学习-adaboost 手推
1 手推1) 初始化训练数据(每个样本)的权重分布D,如果有m个样本,则每个训练样本点最开始都被赋予相同的权重:1/m2) 训练弱分类器。具体训练过程中,如果某个样本已经被正确分类,那么在构造下一个训练集中,权重就会被降低,相反如果某个样本点没有被准确地分类,那么它的权重就得到提高,同时得到第t个弱分类器对应的话语权wt,然后更新权重后的样本集被用于训练下一个分类器,整个训练过程如此迭代地...原创 2019-09-10 18:58:30 · 227 阅读 · 0 评论 -
机器学习-CART 回归树
每片叶子输出一个预测值,预测值一般是该片叶子所含训练集元素输出的均值,相同:1)CART 在分类和回归问题中,CART 都是一颗二叉树,除叶子节点外的所有节点都有且仅有两个子节点。2)所有落在同一片叶子中的输入都有相同的输出差异:1) 在分类问题中,CART 使用基尼指数作为选择特征和划分的依据,在回归问题中,CART 使用mse 或者mas 作为选择和划分的依据。2) 分...原创 2019-09-10 19:55:40 · 178 阅读 · 0 评论 -
机器学习-Metropolis-hasting 和Gibbs sampling 的区别
如何生成服从某个概率分布的样本是一个重要的问题,如果样本维度很低,只有一两维,可以用反切法,拒绝采样和重要性采样,但是对高维数据就需要用MH 和Gibbs 采样了。它们都属于马尔科夫蒙特卡洛方法。1 MCMC 方法马尔科夫链是状态空间的转换关系,下一个状态只和当前的状态有关,最后会收敛到一个平稳分布,这个分布只和概率转移矩阵p 有关,而和初始状态分布u 是什么没有关系。如何判断一个马尔...原创 2019-09-10 20:44:14 · 1582 阅读 · 0 评论 -
机器学习-降维算法(SVD和PCA)
降维算法主要分为线性降维和非线性降维。1奇异值分解(SVD)SVD 还可以用于推荐系统以及自然语言处理等领域,矩阵的特征分解,矩阵A和特征值,特征向量之间的关系如下:将A 矩阵做特征分解,特征向量Q是一组正交向量,具体表达式如下:在这里因为Q 中n个特征向量为标准正交基,满足,也就是说Q 为酉矩阵。矩阵的特征值分解的局限性比较大,要求矩阵A 必须是方阵,那么一般的矩...原创 2019-09-11 09:59:29 · 1042 阅读 · 0 评论 -
机器学习-推荐系统
1 如何设计一个推荐系统推荐系统要解决的问题是两个,1是取的候选集,二是对候选集进行评分,第一个问题传统的基于结构的cf 或者KNN 聚类,基于内容的都能解决部分,第二个问题业界现在流行用广告思路来做,即为对ctr(user,item)进行预估,数据的质量决定了你打分的好坏。好的推荐系统与具体业务也有关,方法都是公开的,可能用到的特征和商业trick 可能需要自己摸索。此外online l...原创 2019-09-16 09:24:28 · 142 阅读 · 0 评论 -
机器学习-强化学习
1 没有教师信号,也没有label,只有reward,其实reward 就相当于label。2 反馈有延时,不是能立即返回3 相当于输入数据是序列数据4 agent 执行的动作会影响之后的数据强化学习的关键要素有:环境,reward,action和state,要解决的问题是针对一个具体问题得到一个最优的policy,使得在该策略下获得reward 最大,所谓的policy 其实就是...原创 2019-09-09 17:33:51 · 146 阅读 · 0 评论 -
机器学习-特征工程之分箱
分类模型中需要对连续变量离散化,可以降低模型过拟合的风险,更稳定。分箱的重要性和优势:1 离散特征的增加和减少都很容易,易于模型的快速迭代2 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。3 离散化后的特征对异常数据有很强的鲁棒性,比如一个特征年龄>1 是1,否则是0,如果特征没有离散化,一个异常数据300岁会给模型造成很大的干扰。4 逻辑回归属于广义线性模型,...原创 2019-09-09 17:18:30 · 1274 阅读 · 0 评论 -
机器学习-推荐算法FM
·1 FM笔记65页https://blog.csdn.net/neekity/article/details/89416707原创 2019-09-07 21:28:36 · 216 阅读 · 0 评论 -
机器学习-随机森林
1随机森林与gbdt的异同相同点:都是由多棵树组成,最终的结果也都是由多棵树决定。2 GBDT 和随机森林的不同点2.1 组成随机森林的树可以是分类树,也可以是回归树,而GBDT 只能由回归树组成2.2 组成随机森林的树可以并行生成,而GBDT 只能串行生成2.3 对于最终的输出结果而言,随机森林采用多数投票,而GDBT 则是将所有的结果累加起来,或者加权累加起来。2.4...原创 2019-08-29 16:59:14 · 160 阅读 · 0 评论 -
机器学习-朴素贝叶斯
1 使用场景https://www.nowcoder.com/discuss/175759EM: 一种含有隐含变量的概率模型参数的极大似然估计法,主要应用于在机器学习以及计算机视觉的数据聚类领域。lr:通过拟合样本的某个曲线,然后使用LR 进行区间缩放,用于分类,主要用在点击率预估和推荐系统。SVM:找到样本空间中的一个超平面,实现样本的分类,也可以做回归,用于文本分类。nn:...原创 2019-08-02 00:20:54 · 124 阅读 · 0 评论 -
机器学习-LDA
1 讲讲LDAhttps://www.nowcoder.com/discuss/199755一种监督学习的降维技术,与PCA不同的是,PCA是寻找数据集中方差最大的方向作为主成分分量的轴,而LDA 是最优化分类的特征子空间。LDA 的思想:投影后类内方差最小,类间方差最大。与PCA的对比:可以看出如果是PCA的话,为了方差最大化,会投影到左边,LDA会选择投影到下面。L...原创 2019-07-28 21:56:25 · 380 阅读 · 0 评论 -
深度学习-样本类别不均衡的处理方法
两个方面: 1 数据抽样,2 从算法角度出发,考虑不同误分类情况代价的差异性对算法进行优化。1-1 欠采样:随机采样1-2 过采样:smote 算法SMOTE算法: 即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学到的信息过于特别而不够泛化,SMOTE 算法的实习是对少数样本进...原创 2019-09-08 15:41:34 · 2572 阅读 · 0 评论 -
python-总结
1 map 函数是啥https://www.nowcoder.com/discuss/170282map() 函数map() 是python 内置的高阶函数,它接收一个函数f 和一个list,并通过把函数f 依次作用在list 的每个元素上,得到一个新的list 并返回。对于list [1,2,3,4,5,6,7,8,9]如果希望把list 的每个元素都作平方,就可以用map(...原创 2019-08-01 22:24:19 · 141 阅读 · 0 评论 -
数据挖掘类的算法
1 分类,聚类,关联规则,离群值检验离群值检验的具体方法:参数方法和非参数方法参数方法: 假定正常的数据对象被一个以为参数的参数分布产生。该参数分布的概率密度函数给出对象被该分布产生的概率。该值越小,越可能是离群点。非参数方法: 并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法的例子包括直方图和和核密度估计。ref:https://www.jianshu.com/p/...原创 2019-09-11 11:06:52 · 98 阅读 · 0 评论 -
机器学习-推荐系统
1 如何设计一个推荐系统推荐系统要解决的问题是两个,1是取的候选集,二是对候选集进行评分,第一个问题传统的基于结构的cf 或者KNN 聚类,基于内容的都能解决部分,第二个问题业界现在流行用广告思路来做,即为对ctr(user,item)进行预估,数据的质量决定了你打分的好坏。好的推荐系统与具体业务也有关,方法都是公开的,可能用到的特征和商业trick 可能需要自己摸索。此外online l...原创 2019-09-12 12:05:05 · 118 阅读 · 0 评论 -
机器学习-MCMC
1 MCMC 介绍笔记51页https://www.cnblogs.com/xbinworld/p/4266146.html原创 2019-09-16 09:24:48 · 232 阅读 · 0 评论 -
机器学习算法-其他重要算法
1 HMM 隐马尔科夫模型的参数估计方法EM 算法2 Boostrap 方法从数据集中有放回的抽取n次,每次抽m个3 Focal Loss 介绍一下Focal Loss 主要是为了解决one-stage 目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本中所占的权重,可以理解为一种困难样本挖掘,Focal loss 在交叉熵损失函数基础上进行的修改,首先回...原创 2019-09-25 19:37:54 · 201 阅读 · 0 评论 -
机器学习算法-模型融合和提升算法
1 bagging和boosting的区别1) 样本选择: Bagging :在训练集集中是有选择放回选取的。2)样例权重3) 预测函数4) 并行计算https://www.nowcoder.com/tutorial/95/1febc9ddb91f46098f7341b05831db692 XGBoost 和GDBT 的区别GDBT 在函数空间中利用梯度下降法进行优化而...原创 2019-09-24 22:07:43 · 956 阅读 · 0 评论 -
机器学习算法-推荐系统的常用算法
1 FM公式原创 2019-09-24 21:23:21 · 193 阅读 · 0 评论 -
机器学习-处理聚类问题常见算法
1 DBSCANDBSCAN 是一种基于密度的空间聚类算法,它不需要定于簇的个数,而是将具有足够高密度的区域划分为簇,并且在有噪声的数据中发现任意形状的簇,在此算法中将簇定于为密度相连的点的最大集合。原理:1) 需要选择一种距离度量,对于待聚类的数据集中,任意两个点之间,反映了点之间的密度,说明了 点与点是否能够聚到同一类中,由于DBSCAN 算法对高维数据定义密度很困难,所以对于二维空间...原创 2019-09-24 20:25:47 · 669 阅读 · 0 评论 -
机器学习-处理回归问题常用算法
1 L1和L2 正则化的区别L1 是模型各个参数的绝对值之和,L2 为各个参数平方和的开方值,L1 更趋向于产生少量的特征,其他特征为0,最优的参数值很大概率出现在坐标轴上,从而导致产生稀疏的权重矩阵,而L2 会选择更多的矩阵,但是这些矩阵趋向于02 Loss Function 有哪些,怎么用?平方损失(预测问题),交叉熵(分类问题),hinge 损失(SVM 支持向量机),CART ...原创 2019-09-24 18:11:09 · 385 阅读 · 0 评论 -
机器学习算法- 处理分类问题常用算法
交叉熵公式:1 LR 怎么实现多分类修改LR 的损失函数,使用softmax 函数构造模型解决多分类问题,softmax 分类模型会有相同与类别数的输出,输出的值对于样本属于各个类别的概率,最后对于样本进行预测的类型为概率值最高的那个类别。方式二: 根绝每个类别都建立一个二分类器,本类别的样本标签定义为0,其他分类样本标签定义为,则有多少个类别就构造多少个LR 分类器。有互斥的用s...原创 2019-09-24 14:58:04 · 1313 阅读 · 0 评论 -
除了树模型,Bagging能不能接其他的基模型。
可以,还可以用k近邻分类器作为基分类器。ref:https://www.jianshu.com/p/c4bf8821af19原创 2019-09-17 17:49:33 · 317 阅读 · 0 评论 -
偏差-方差分解
什么是偏差与方差?泛化误差可以分解成偏差的平方加上方差加上噪声偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力。方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响噪声表达了 当前任务上任何学习算法所能达到的期望泛化误差下届,刻画了 问题本身的难度。偏差和方差一般称为bias 和variance,一般训练程度越强,偏差...原创 2019-09-17 17:48:12 · 364 阅读 · 0 评论 -
HMM-维特比算法
给定一个已训练的HMM,即转移矩阵A和B 以及一个新的观察序列W=w_1,w_2,,,,w_N.。我们希望找到最佳的状态序列T=t_1,t_2,....t_N 来解释该观察序列。这一过程可以通过使用维特比算法实现,该算法试图找到总体上最佳的状态序列 T=t_1,t_2,t_N。 一般来说我们还可以使用另一种后验解码的算法,该算法独立得为序列中每个位置i 选择后验概率最高的状态。维特比算法:...原创 2019-09-17 12:40:03 · 467 阅读 · 0 评论 -
机器学习-贝叶斯公式
用来描述两个条件概率之间的关系,比如P(A|B) 和P(B|A) 。按照乘法法则,可以导出。如上公司也可变形为:原创 2019-09-17 09:51:14 · 140 阅读 · 0 评论 -
机器学习-生成模型和判别模型
生成模型: HMM Bayes LDA计算思路:通过学习全部样本的先验和条件概率分布,求出后验概率特征: 可得到联合概率分布P(XY)判别模型:SVM knn 决策树,LR CRF计算思路:直接学习P(Y|X) 或者学习决策边界特征: 不可学的到的联合概率分布P(XY)直接对比:1 生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊...原创 2019-09-17 09:47:13 · 416 阅读 · 0 评论 -
机器学习-贪心算法
贪心算法的定义:对问题求解时,不从整体最优上加以考虑,只做出在某种意义上的局部最优解,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前的状态有关。解题的一般步骤:1 建立数学模型来描述问题:2 把求解的问题分成若干个子问题,对每一个子问题求解,得到子问题的局部最优解。3 把子问题的局部最优解合成原来问题的一个解。...原创 2019-09-16 15:55:32 · 1265 阅读 · 0 评论 -
遗传算法原理和优缺点
1 原理遗传算法就是在一定的自变量有限的取值范围内,随机取若干个个体,每个个体相当于自变量范围内的一个取值,若干个体共同组成一个种群,个体对环境的适应能力提现为该个体对应的因变量,不同的个体得到的结果不同,对于结果较好的个体,其下一代在种群中的占比更高,不好的占比更少,简单来说,就是好的个体被保留,坏的个体被淘汰,经过不断地更新换代,最后的结果会不断逼近最优的结果。ref:htt...原创 2019-09-16 15:54:52 · 18174 阅读 · 0 评论 -
机器学习-svm的损失函数
1 损失函数SVM(支持向量机)和softmax的区别在于损失函数的不同,用公式可以描述为:ref:https://blog.csdn.net/lanmengyiyu/article/details/788221432 软间隔https://blog.csdn.net/Dominic_S/article/details/83002153...原创 2019-09-16 12:06:22 · 763 阅读 · 0 评论 -
特征选择-岭回归和Lasso
https://www.nowcoder.com/discuss/207092特征缩减是通过损失函数加入惩罚项,使得训练求解参数过程会考虑到系数的大小,通过设置缩减系数,会使得影响较小的特征的系数衰减到0,只保留重要的特征,嵌入式特征选择方法有LASSO (L1 正则化) 和岭回归(L2正则化)。特征选择可消除噪声特征和消除关联的特征,并能减少训练开销。https://blog.csdn....原创 2019-09-16 09:25:05 · 1904 阅读 · 0 评论 -
机器学习-数据预处理
1 连续数据特征离散化的方法https://www.nowcoder.com/discuss/185614由于LR 中模型表达能力有限,可以通过特征离散化来提高非线性学习能力。主要方法:1) 等距离散:取值范围均匀划分成n 等分,每份的间距相等。2) 等频离散:均匀分为n 等分,每份内包含的观察点数相同3) 优化离散:3-1 卡方检验方法: 统计样本的实际观测值与理论判断值...原创 2019-09-07 16:21:13 · 123 阅读 · 0 评论 -
机器学习-凸函数
https://www.nowcoder.com/discuss/2053411 凸优化是指X 是闭合的凸集,f 是X 上的凸函数的最优化问题,这两个条件任一不满足则该问题即为非凸的最优化问题。其中,X 是凸集是指对集合中任意两点,即任意两点的连线段都在集合内,直观上就是集合不会像下面那样有凹下去的部分,至于闭合的凸集,则涉及到闭合的凸集,则涉及到闭集的定义,而闭集的定义又基于开集。闭合...原创 2019-07-22 22:24:22 · 1106 阅读 · 0 评论