qq_35575840-CSDN博客

原创线性模型-（线性回归+LR模型）

文章目录1. 线性回归2.对数几率回归（LR回归）1. 线性回归线性回归试图学得：f(xi)=ωxi+b,使得f(xi)≃yi(1)f(x_i)=\omega x_i + b ,使得f(x_i) \simeq y_i \tag{1}f(xi)=ωxi+b,使得f(xi)≃yi(1)利用均方误差进行衡量f(xi)f(x_i)f(xi)与yiy_iyi的差别，求解ω,b\omega, bω,b使得均方误差最小。(ω∗,b∗)=argmin(ω,b)∑i=1m(f(xi)−yi)2=ar

2020-08-04 17:19:58 533

原创特征工程-全流程

文章目录1. 什么是特征工程：2. 特征工程的重要性3. 特征构建4. 特征提取5. 特征选择5.1 filter（刷选器）5.2 wrapper（封装器）5.3 Embeded(集成方法)1. 什么是特征工程：特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。2. 特征工程的重要性（1）特征越好，灵活性越强（2）特征越好，构建的模型越简单（3）特征越好，模型的性能越出色3. 特征构建特征构建指的是从原始数据中人工的构建新的特征。需要花大量的时间去研究真实

2020-08-03 11:48:18 809

原创决策树算法比较：ID3、C4.5、CART

决策树算法比较： ID3、C4.5、CART1. ID31.1 算法步骤：1.2 划分标准（信息增益）：1.3缺点2. C4.52.1改进2.2 划分标准2.3剪枝策略2.4 缺点3. CART3.1算法步骤3.2 改进3.3 划分标准（基尼指数）3.4 缺失值处理3.5 剪枝策略4. 总结决策树是一个非常常见并且优秀的机器学习算法，它易于理解、可解释性强，其可作为分类算法，也可用于回归模型。其中基本树包括 ID3、C4.5、CART，本文将从思想、划分标准、剪枝策略，优缺点等方面介绍。1. ID3I

2020-08-02 17:23:24 1401

原创集成学习(一)——简介

集成学习1.介绍2.Bagging3.Boosting3.1 GBDT3.2 Adaboosting3.3 Catboost4.stacking1.介绍集成学习是通过构建并结合多个学习器来完成任务。其一般结构是先产生一组个体学习器，再用某种策略将它们结合起来。集成学习可以分为Bagging、Boosting和stacking三个框架。2.Bagging先看第一个bagging：bagging的时候每个分类器都随机从原样本中做有放回的采样，训练基模型，最后根据多个基模型的预测结果产出最终的结果。bag

2020-08-01 21:23:15 426

原创集成学习（二）——Adboost

文章目录1. Adboost介绍2. 弱分类器3.Adaboost的权重3.1 数据权重3.2 分类器权重4. 代码1. Adboost介绍Adboost为集成学习中boosting方法的代表。基本原理为：将多个弱分类器通过迭代的方法组合起来，形成一个强分类器。2. 弱分类器Adaboost一般使用单层决策树作为其弱分类器。单层决策树是决策树的最简化版本，只有一个决策点，也就是说，如果训练数据有多维特征，单层决策树也只能选择其中一维特征来做决策，并且还有一个关键点，决策的阈值也需要考虑.(个人理解

2020-08-01 21:23:08 708

原创集成学习（三）——GBDT

3.1 GBDT提升树(Boosting Decision Tree)BDT我们利用平方误差来表示损失函数，其中每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树。其中残差=真实值-预测值，提升树即是整个迭代过程生成的回归树的累加。我们通过以下例子来详解算法过程，希望通过训练提升树来预测年龄。训练集是4个人，A、B、C、D年龄分别是14、16、24、26。样本中有购物金额、上网时长、经常到百度知道提问等特征。提升树的过程如下:我们能够直观的看到，预测值等于所有树值的累加，如A

2020-08-01 21:22:59 123

原创集成学习（四）——XGBoost

文章目录1. XGBOOST?2.XGBoost的数学原理2.1 目标函数：2.2 树的结构2.3 分支策略2.4 防止过拟合2.5 缺失值处理3. XGBoost VS. GBDT1. XGBOOST?XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本,并进行算法的改进和工程上的优化。XGBoost类似于GBDT，是一个基于CART树的，由多个弱分类器经过boost框架，以负梯度为学习策略的一种集成学习方法。2.XGBoo

2020-08-01 21:22:50 231

原创集成学习（五）——Catboost

CatBoost1.介绍2. 类别型特征处理3.组合类别特征4.Leaf_values1.介绍CatBoost（categorical boosting）是一种能够很好地处理类别型特征的梯度提升算法库。该库中的学习算法基于GPU实现，打分算法基于CPU实现。2. 类别型特征处理首先对categorical features做一些统计，计算某个类别特征（category）出现的频率，之后加上超参数，生成新的数值型特征（numerical features）。类别型特征这类特征不是数值型特征，而是离

2020-08-01 21:22:34 1066

原创特征选择-皮尔逊系数、RFE（原理及代码）

私人记录-面试简历皮尔逊系数RFE递归特征消除介绍python实现简历记录面试简历需要复习的一些知识。皮尔逊系数介绍：皮尔逊相关也称为积差相关（或者积矩相关）。我们假设有两个变量X,Y,那么两变量间的皮尔逊相关系数计算如下：其中E为数学期望，cov表示协方差，N表示变量取值的个数相关系数的绝对值越大，相关性越强，相关系数越接近于1或-1，相关系数越接近于0，相关度越弱。通向情况下通过一下取值范围判断变量的相关强度：相关系数绝对值： 0.8-1.0 极强相关0.6-0.8 强相关

2020-08-01 21:22:12 6906 1

原创模型评价：期望风险、经验风险与结构风险

模型评价：期望风险、经验风险与结构风险损失函数: 损失函数是针对单个具体的样本而言的。表示的是模型预测的值与样本真实值之间的差距。记为：L(yi,f(xi),)L(y_i,f(x_i),)L(yi,f(xi),)其中，yiy_iyi为真实值，f(xi)f(x_i)f(xi)为模型的预测值。经验风险：衡量模型f(X)对训练样本中所有的样本的预测能力，对训练集中的所有样本点损失函数的平均最小化。Remp=1N∑i=1NL(yi,f(xi))R_{emp}=\frac{1}{N}\sum_{i=

2020-08-01 21:20:41 338

原创 SVM(支持向量机原理+代码)

SVM1. 线性可分支持向量机1.1 原理SVM，全称是support vector machine，中文名叫支持向量机。它的目标是为确定一个分类超平面，从而将不同的数据分隔开。支持向量机学习方法包括构建由简至繁的模型,可以分为线性可分支持向量机（硬间隔最大化）、线性支持向量机（软间隔最大化）、非线性支持向量机（核技巧+软间隔最大化）。1. 线性可分支持向量机1.1 原理在样本空间中，超平面(w,b)(w,b)(w,b)可用如下方程来描述：ωTx+b=0\omega^Tx + b = 0ωTx

2020-08-01 20:56:07 1205 1

原创决策树-最详细的原理介绍

决策树1. 基本流程2. 划分选择2.1信息增益2.2信息增益率2.3基尼指数3. 解决过拟合3.1剪枝3.2正则化4.多变量决策树5.决策树回归1. 基本流程决策树是基于树结构的决策算法，包括一个根结点，若干个内部节点和叶子结点。叶子结点对应于决策结果，其他每个节点对应于一个属性测试。如图所示：决策树的生成是一个递归过程，在决策树基本算法中，有三种情形会导致递归返回：（1）当前节点包含的样本全属于同一类别；（2）当前属性集为空，或是所有样本在所有属性集上取值相同；（3）当前节点包含的样本集合

2020-06-27 15:49:50 1871

qq_35575840的博客