自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 2021-04-20

集成学习(中)Task09——Boosting1 导论2 Boosting方法的基本思路3 Adaboost算法4 使用sklearn对Adaboost算法进行建模1 导论在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过

2021-04-20 23:39:27 121

原创 集成学习(上)Task06:评估模型的性能并调参

集成学习(上)Task06:评估模型的性能并调参1 使用网格搜索进行超参数调优1.1 方式1:网格搜索`GridSearchCV()`1.2 随机网格搜索`RandomizedSearchCV()`2 混淆矩阵3 绘制ROC曲线1 使用网格搜索进行超参数调优1.1 方式1:网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_t

2021-03-30 01:02:20 169

原创 集成学习(上)Task05:掌握基本的分类模型

集成学习(上)Task05:掌握基本的分类模型1 度量分类模型性能的指标2 具体的分类模型2.1 Logistic模型2.2 基于概率的分类模型2.3 决策树2.4 支持向量机SVM3 利用`sklearn`构建完整的分类项目1 度量分类模型性能的指标度量分类模型的指标和度量回归模型的指标为什么会有差异?分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通;在分类任务中,我们对于每个类别犯错的代价不尽相同。度量分类模型性能的指标是什么?(1)基

2021-03-28 00:55:03 194

原创 集成学习(上)Task04:掌握回归模型的评估及超参数调优

集成学习(上)Task04:掌握回归模型的评估及超参数调优1 问题的提出2 参数与超参数3 如何求解最优的参数与超参数?4 看几个具体的例子1 问题的提出岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,在L2正则化中参数λ\lambdaλ应该选择多少?能不能找到一种方法找到最优的参数λ\lambdaλ?事实上,找到最佳参数的问题本质上属于最优化的内容,因为从一个参数集合中找到最佳的值本身就是最优化的任务之一,我们脑海中浮现出来的算法无非就是:梯度下降法、

2021-03-24 22:27:09 158

原创 集成学习(上)Task03:掌握偏差与方差理论

集成学习(上)Task03:掌握偏差与方差理论1 偏差-方差的权衡1.1 背景1.2 偏差-方差权衡的理论基础1.3 偏差-方差平衡的具体方法1.3.1 特征提取法1.3.2 压缩估计法1.3.3 降维的方法引入偏差和方差理论的背景:我们希望建立的机器学习模型在测试数据上表现优异,而不是训练集。1 偏差-方差的权衡1.1 背景当我们的模型的训练均方误差达到很小时,测试均方误差反而很大【过拟合】。下面用一张图说明问题:1.2 偏差-方差权衡的理论基础从上图的测试均方误差曲线可以看到:测试均方

2021-03-23 01:58:00 306

翻译 Task02加篇1——小白理解决策树

Task02加篇1——小白理解决策树1 什么是决策树1.1 决策树的基本概念1.2 决策树模型的分类2 树模型的拆分【回答问题1、3】2.1 基尼不纯度(适用分类树)2.2 信息增益(适用分类树)2.3 方差法(适用回归树)3 决策树的关键参数4 树模型剪枝(注意在测试样本上进行评估)4.1 预剪枝4.2 后剪枝5 连续值特征处理【回答问题2】6 缺失值如何处理7 算法详解7.1 ID3算法(分类问题,多叉树)7.2 C4.5算法(分类问题,多叉树)7.3 CART算法(分类/回归,二叉树)7.3.1 CA

2021-03-22 22:30:29 360

原创 集成学习(上)Task02:掌握基本的回归模型

集成学习(上)Task02:掌握基本的回归模型1 度量模型的性能指标2 具体可选择的回归模型2.1 线性回归模型2.2 线性回归推广——多项式回归2.3 线性回归推广——广义可加模型(GAM)2.4 回归树模型2.4.1 方法2.4.2 与线性回归模型的比较2.4.3 回归树模型的优缺点3 用例子来比较以上四种模型的回归效果鉴于自己的专业,此次我的学习总结仍然偏重于应用,只对几种常用回归模型、其使用情景和效果做梳理。对于线性回归模型我会在后一篇文章稍微加一些理论推导部分,因为这部分应用的较多。1 度

2021-03-19 02:55:42 229

原创 集成学习(上)Task01:熟悉机器学习的主要任务

DataWhale集成学习(上)Task01:熟悉机器学习的三大主要任务1 什么是机器学习2 有监督学习导论2.1 回归2.2 分类这算是我第一次正式、系统学习【机器学习】和【集成学习】,言外之意我就是个小白(交通专业,不过对用python进行数据分析还是有基础的)~~关于打卡,我只想把自己最关心的、对我最有价值的部分提取出来,一方面算作给自己的回忆,另一方面也算做给和我同样水平的小伙伴的分享吧!1 什么是机器学习一句话概括机器学习:利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。

2021-03-16 00:58:40 258 1

原创 DataWhale 金融风控-贷款违约预测 Task3 特征分析

Task3 特征分析import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_selection import SelectKBestfrom sklearn.feat

2020-09-21 23:28:12 215

原创 DataWhale 金融风控-贷款违约预测 Task2 数据分析

Task2 数据分析import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')# 2.1 读取文件data_train = pd.read_csv(r'...\train.csv')data_test_a = pd.read_csv(r'...

2020-09-18 23:41:34 280

原创 DataWhale 金融风控-贷款违约预测 Task1赛题理解

Task1 赛题理解赛题以金融风控中的个人信贷为背景,要求根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。1.1 赛题概况根据给定的数据集,建立模型,预测金融风险。该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。其中,80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时employmentTitle、purpose、postCode和title等信息已脱敏。1.2 数据概况(字段信息)FieldD

2020-09-15 20:51:14 488

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除