机器学习算法(分类)
注重原理与实践的结合
ecnu_frc_new
金融风控爱好者!!!
展开
-
SVM算法原理详解及python实现
SVM算法算法原理对数据的要求算法的优缺点算法需要注意的点算法实现(python)(待更.........)算法原理{wTx+b>0yi=1⟺y(xi)>0wTx+b<0yi=−1⟺y(xi)<0\begin{cases}w^Tx+b>0 \quad y_i=1 \Longleftrightarrow y(x_i)>0\\ w^Tx+b<0 \quad y_i=-1 \Longleftrightarrow y(x_i)<0\\ \end{cases}原创 2020-05-26 22:13:25 · 2977 阅读 · 0 评论 -
朴素贝叶斯算法详解及python代码实现
朴素贝叶斯算法算法原理对数据的要求算法的优缺点算法需要注意的点算法实现(python)(待更.......)算法原理P(Ck∣xi)=p(xi∣ck)∗p(ck)p(xi)=p(x1∣ck)∗p(x2∣ck)....p(ck)p(x1)p(x2)....P(C_k|x_i)=\frac{p(x_i|c_k)*p(c_k)}{p(x_i)}=\frac{p(x_1|c_k)*p(x_2|c_k)....p(c_k)}{p(x_1)p(x_2)....}P(Ck∣xi)=p(xi)p(xi∣ck)原创 2020-05-25 23:32:40 · 1384 阅读 · 1 评论 -
Xgboost算法原理详解及python实现
Xgboost算法(回归树)1、算法原理2、对数据的要求(无需规范化)3、算法的优缺点4、XGB、GBDT、LR与RF5、python代码实现(待更......)导入相关包读取数据并预处理(必须处理缺失值)训练评估1、算法原理步骤(booststrap sampling):目标函数:obj(t)=∑i=1nL(yi,y^i(t−1)+ftxi)+Ωf(t)+Cobj^{(t)}=\sum_{i=1}^nL(y_i,\widehat y_i^{(t-1)}+f_t^{x_i})+\Omega f(t)+原创 2020-05-25 23:29:18 · 2142 阅读 · 1 评论 -
KNN算法原理详解及python代码实现
KNN算法算法原理对数据的要求算法的优缺点算法需要注意的点算法实现(python)算法原理计算待测样本与train_data的距离d并保存数组中对d进行排序,取d最近的k个样本统计样本的类别或值(k个),取其类别最多的类别(或平均值)对数据的要求对于 缺失值需要处理(填充或者删除)分类变量需要编码(涉及距离计算)数据需要标准化或者归一化处理(消除量纲的影响。涉及距离计算的算法都需要考虑)算法的优缺点一、优点1.准确度高,对异常值与噪声有较高的容忍度2. 没有模型,无需参数估计原创 2020-05-25 23:23:10 · 2062 阅读 · 1 评论 -
随机森林原理详解及python代码实现
随机森林(RF)算法1、算法原理2、对数据的要求(无需规范化)3、算法的优缺点4、算法需要注意的点5、python代码实现(待更......)导入相关包读取数据并预处理(必须处理缺失值)训练评估1、算法原理步骤(booststrap sampling):1、从数据集中有放回的随机抽m个样本2、从样本中选取n个特征进行建树3、重复1-22、对数据的要求(无需规范化)与cart类似 https://blog.csdn.net/weixin_41851055/article/details/1062原创 2020-05-21 23:25:32 · 2064 阅读 · 0 评论 -
GBDT(回归树)原理详解与python代码实现
GBDT算法1、算法原理2、对数据的要求3、算法的优缺点4、算法需要注意的点5、python代码实现(待更......)导入相关包读取数据并预处理训练及评估1、算法原理步骤:1、初始f0(x)f_0(x)f0(x):编号真实值f0(x)f_0(x)f0(x)残差01.11.475-0.37511.31.475-0.17521.71.475-0.22531.81.475-0.3252、以残差作为样本真实值训练f1(x)f_1(原创 2020-05-21 23:24:52 · 5024 阅读 · 5 评论 -
决策树原理详解及python代码实现
决策树算法(信贷中常用来寻找规则)1、算法原理1.1 ID3(多叉树分类)1.2 C4.5(多叉树分类)1.3 Cart(二叉树分类+回归)2、ID3、C4.5与Cart比较3、算法优缺点4、算法需要注意的点5、python代码实现5.1导入相关包5.2 读取数据并数据处理5.3 模型训练5.4 评估指标5.4 决策树以图的形式输出1、算法原理1.1 ID3(多叉树分类)信息熵:Ent(D)=−∑i=1npilogpiEnt(D)=-\sum_{i=1}^np_ilogp_iEnt(D)=−∑i=1n原创 2020-05-20 19:23:59 · 2047 阅读 · 2 评论 -
机器学习算法—集成算法原理详解
集成算法1、集成算法之Boosting(GBDT、XGB、LGB)2、集成算法之Bagging(RF)3、集成算法之Stacking(速度慢)1、集成算法之Boosting(GBDT、XGB、LGB)1、重赋权(错误标记样本赋予较高的权重)(过早停止导致基学习器少)2、重采样注:关注降低偏差,避免欠拟合。个体学习器之间存在强依赖关系2、集成算法之Bagging(RF)booststrap sampling:1、从数据集中有放回的随机抽m个样本(36.8%抽不中)2、从样本中随机抽n个特征进行原创 2020-05-20 19:23:34 · 293 阅读 · 0 评论