机器学习实战
文章平均质量分 79
学机器学习的机械工程师
目前在读研,曾经做过机械工程师,正准备入行数据科学和人工智能领域。写写博客一起交流学习。
展开
-
风控-模型融合
模型融合1内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking构建多层模型,并利用预测结果再拟合预测blending选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测boosti原创 2020-09-27 22:03:56 · 309 阅读 · 0 评论 -
风控-建模及调参
1 模型对比与性能评估1.1逻辑回归优点:训练速度较快,分类时,计算量仅仅只和特征的数目相关简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响。适合二分类问题,不需要缩放输入特征内存资源占用小,只需要存储各个维度的特征值缺点:逻辑回归需要预先处理缺失值和异常值;不能用Logistic回归去解决非线性问题,因为Logistic决策面是线性的对多重共线性数据较为敏感,且很难处理数据不平衡的问题。准确率并不是很高,因为形式非常简单,很难去拟合数据的真实原创 2020-09-24 17:48:50 · 230 阅读 · 0 评论 -
风控-特征工程
1 学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法2 内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱(选做作业)特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试(选做作业)特征编码one-hot编码label原创 2020-09-21 20:43:06 · 333 阅读 · 0 评论 -
风控-数据分析
数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告import pandas as pdimport numpy as npimport matplotlib.pyplot as plt原创 2020-09-18 17:15:29 · 1745 阅读 · 0 评论 -
数据挖掘实战-金融风控-赛题理解
1.赛题信息赛题以预测用户贷款是否违约为任务,自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏2.数据概况3.评价标准二、评测标准提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。AUC(Area原创 2020-09-15 22:26:39 · 413 阅读 · 0 评论