机器学习算法
Minouio
这个作者很懒,什么都没留下…
展开
-
异常值检测
目录1 概论1.1 异常检测的定义1.2 异常检测的应用场景1.3 异常值的特点1.4 异常检测算法分类2 Isolation Forest算法2.1 Isolation Forest 算法原理2.2 Isolation Forest 算法特点3 局部异常因子LOF算法3.1 LOF算法原理3.2 LOF算法特点4 One-Class SVM算法4.1 One-Class SVM算法原理4.2 One-Class SVM 算法特点:5 基于高斯概率密度算法5.1 基于高斯概率密度算法原理5.3 基于高斯概率原创 2020-07-16 21:29:33 · 2180 阅读 · 0 评论 -
分类/回归/聚类——模型评估
模型评估1. 基本概念2. 分类模型评估2.1 混淆矩阵2.2 准确率(Accuracy)2.3 精确率(Precision)2.4 召回率(Recall)2.5 P-R(Precision-Recall)曲线2.6 F1 Score2.7 ROC曲线2.8 AUC(area-under-curve)3. 回归模型评估3.1 均方误差(MSE)3.2 均方根误差(RMSE)3.3 平均绝对百分比误差(MAPE)3.4 平均绝对误差(MAE)3.5 对称平均绝对百分比误差(SMAPE)3.6 可决系数(R-S原创 2020-07-15 01:40:29 · 2576 阅读 · 0 评论 -
过拟合与欠拟合
目录1. 过拟合1.1 过拟合的定义1.2 过拟合的原因1.3 过拟合的解决办法2. 欠拟合2.1 欠拟合的定义2.2 欠拟合的原因2.3 欠拟合的解决办法3. 面试题3.1 从Bagging和正则化的角度理解Dropout?1. 过拟合1.1 过拟合的定义定义1(摘自周志华机器学习):当学习器把训练样本学的“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象称为过拟合。定义2:具体表现就是最终模型在训练集上效果好;在测试集上效原创 2020-07-13 22:14:36 · 18806 阅读 · 0 评论 -
数据分析面试题——技术类
1. 给你一个无序数组,怎么才能合理采样?无序数组是相对有序数组而言的,无序数组并不等于随机,我们要做的是将无序数组洗牌,得到随机排列。对于无序数组,n个元素能产生n!种排序。如果洗牌算法能产生n!种不同的结果,并且这些结果产生的概率相等,那么这个洗牌算法是正确的。方法:for i in range(len(n)): swap(arr[i], arr[random(i,n)])这段代码是对随机确定数组第一位的值,然后递归对剩余的数组进行相同的过程,可以产生n!中等可能的排序情况。https://b原创 2020-07-13 01:06:33 · 1622 阅读 · 0 评论 -
机器学习9-降维与度量学习
目录1. 奇异值分解(SVD)——特征分解1.1 特征分解1.2 奇异值分解2. PCA2.1 PCA基于最小投影距离的推导2.2 PCA的推导:基于最大投影方差2.3 PCA的优缺点1. 奇异值分解(SVD)——特征分解1.1 特征分解特征值和特征向量的定义如下:Ax=λxAx=\lambda xAx=λx其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。如果我们求出了矩阵A的n个特征值λ1≤λ2≤...≤λnλ_1≤λ_原创 2020-07-06 15:48:21 · 717 阅读 · 0 评论 -
机器学习8-LDA
目录1. LDA原理2. 瑞利商与广义瑞利商3. LDA二分类4. LDA多分类5. LDA降维算法流程6. LDA优缺点LDA与PCA的区别1. LDA原理一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 以下简称LDA)。LDA是一种监督学习的降维技术,PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。右图比左图好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边转载 2020-07-04 21:33:34 · 549 阅读 · 0 评论 -
机器学习7-XGBoost
目录1. 前言2. XGBoost损失函数3. XGBoost损失函数的优化求解4. 算法流程5 运行效率的优化6 健壮性的优化7 面试题1. 前言XGBoost是GBDT的一种高效实现。XGBoost主要从下面三个方面做了优化:1. 算法本身的优化:在算法的弱学习器模型选择上,对比GBDT只支持决策树,还可以直接很多其他的弱学习器。在算法的损失函数上,除了本身的损失,还加上了正则化部分。在算法的优化方式上,GBDT的损失函数只对误差部分做负梯度(一阶泰勒)展开,而XGBoost损失函数对误差部分做原创 2020-07-03 01:22:34 · 366 阅读 · 0 评论 -
机器学习6-SVM
目录1 间隔与支持向量2 线性可分SVM的算法过程3 核函数4 软间隔5 支持向量回归6 SVM优缺点面试问题收集1 间隔与支持向量在训练集样本空间中找到一个划分超平面,使得这个超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。wTx+b=0w^Tx+b=0wTx+b=0w为法向量,决定了超平面的方向,b为位移项8,决定了超平面与原点的距离。样本空间中任一点x到超平面(w,b)的距离可写为:r=∣wTx+b∣∣∣w∣∣r=\frac{|w^Tx+b|}{||w||}r=∣∣w∣∣∣wT原创 2020-07-02 00:25:29 · 415 阅读 · 0 评论 -
机器学习5-GBDT
目录GBDT介绍CART回归树GB–Gradient Boosting 梯度提升树:DT–Regression Decistion Tree中的树一般是回归树:Shrinkage–缩减,循序渐进:GBDT算法原理GBDT实例GBDT分类算法GBDT 优缺点GBDT面试问题收集GBDT介绍梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)是Boosting家族的一员。GBDT也是迭代,使用了前向分布算法,无论是处理回归问题还是二分类以及多分类,弱学习器只能用C原创 2020-07-01 01:36:24 · 902 阅读 · 1 评论 -
机器学习4-集成学习
目录1. 个体与集成2. BoostingAdaboost(二分类)Adaboost(回归)Adaboost正则化Adaboost优缺点3. Bagging&随机森林3.1 Bagging3.2 随机森林4. 结合策略4.1 平均法4.2 投票法4.3 学习法5. 多样性5.1 多样性度量5.2 多样性增强6. Tips7. 面试问题收集1. 个体与集成集成学习通过构建并结合多个学习器来完成学习任务。一般结构:先产生一组个体学习器,再用某种策略将它们结合起来。集成学习可以用于分类问题集成,回归原创 2020-06-30 01:00:51 · 778 阅读 · 0 评论 -
机器学习3-决策树
目录前言信息熵决策树ID3算法决策树ID3算法缺点决策树C4.5算法决策树C4.5算法缺点CART分类树算法CART分类树算法缺点决策树优缺点总结优点缺点面试问题前言决策树既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。信息熵熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:H(X)=−∑i=1npilogpiH(X) = - \sum_{i=1}^{n}{p_ilogp_i}H(X)=−i=1∑npilogpi多个个变量原创 2020-05-09 02:56:41 · 441 阅读 · 0 评论 -
机器学习2-逻辑回归
目录前言算法思想二元逻辑回归模型二元逻辑回归梯度推导多元逻辑回归模型逻辑回归&朴素贝叶斯逻辑回归优缺点优点:缺点应用面试问题收集前言逻辑回归是一个分类算法(二元/多分类),并不是回归算法。Y是连续的才是回归模型。这里打算把公式推一遍。算法思想假设数据服从伯努利分布,在训练数据集中基于对数似然函数,利用梯度下降,找出最佳拟合曲线(最佳分类线θTX\theta^TXθTX),通过sig...原创 2020-05-03 22:54:40 · 797 阅读 · 0 评论 -
机器学习1-朴素贝叶斯
目录前言前提假设算法思想参数估计优缺点应用一些思考&面试问题前言判别方法:直接学习出特征输出Y和特征X之间的关系,决策函数Y=f(X),要么是条件分布P(Y|X)。比如决策树,KNN,逻辑回归,支持向量机等生成方法:朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。。前提假设特征之间相互独立;每个特...原创 2020-05-03 01:57:50 · 1318 阅读 · 0 评论