自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 模型融合

模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升。模型融合的方式1. 平均:a. 简单平均法b. 加权平均法2. 投票:a. 简单投票法b. 加权投票法3. 综合:a. 排序融合b. log融合4. stacking:a. 构建多层模型,并利用预测结果再拟合预测。5. blending:a. 选取部分数据预测训练得到预测结果作为新.

2020-09-26 16:50:22 549

原创 建模与调参

学习目标1. 学习在金融分控领域常用的机器学习模型2. 学习机器学习模型的建模过程与调参流程3. 完成相应学习打卡任务逻辑回归模型优点a. 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;b. 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;c. 适合二分类问题,不需要缩放输入特征;d. 内存资源占用小,只需要存储各个维度的特征值;缺点a. 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】;b. 不能用Logistic回归

2020-09-24 17:43:22 310

原创 特征工程

1. 数据预处理:a. 缺失值的填充b. 时间格式处理c. 对象类型特征转换到数值2. 异常值处理:a. 基于3segama原则b. 基于箱型图3. 数据分箱a. 固定宽度分箱b. 分位数分箱离散数值型数据分箱 连续数值型数据分箱c. 卡方分箱(选做作业)4. 特征交互a. 特征和特征之间组合b. 特征和特征之间衍生c. 其他特征衍生的尝试(选做作业)5. 特征编码a. one-hot编码b. label-encode编码6. 特征

2020-09-21 17:34:00 207

原创 数据探索

导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')加载数据集import pandas as pddf = pd.read_csv('train.csv')数据集占内存大小,空值信息及数据类型df.info()

2020-09-18 17:22:00 237

原创 分类算法常见的评估指标

1、混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )2、准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。

2020-09-15 22:32:47 772

原创 SVM原理

我们先认识一下SVM:(1)支持向量机(Support Vector Machine, SVM)是一种对数据进行二分类的广义线性分类器,其分类边界是对学习样本求解的最大间隔超平面。(2)SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器 。(3)SVM可以通过引入核函数进行非线性分类。关于SVM的阐述,我们发现SVM有三宝,分别是最大间隔、对偶问题以及核函数。1、最大间隔超平面在说明最大间隔超平面问题之前,先说明一下什.

2020-08-26 22:29:36 3655

原创 树模型总结

1. 决策树是什么?决策树算法是机器学习中最经典的算法之一。大家可能听过一些高深的算法,例如在竞赛中经常使用的Xgboost、各种集成算法等,他们都是基于树模型来建立的,所以掌握那些模型,首先我们需要掌握决策树。树:有一个根节点,由根结点开始,不断的扩展,最终到达叶子结点,叶子结点就是最终的点,后面就无法扩展了。(相关数据结构可以自行补齐)决策树的原理和搜索二叉树的原理差不多,从根结点开始,每次经过一个结点,都需要判断走左边还是右边,最终目标结点,那么达到目标结点的过程就是决策的过程。根节点:数据

2020-08-23 22:12:53 1416

转载 逻辑回归

逻辑回归什么是逻辑回归模型sigmoid 函数决策函数参数求解分类边界正则化什么是逻辑回归逻辑回归(Logistic Regression,也译作“对数几率回归”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。逻辑回归一般用于二分类(Binary Classification)问题中,给定一些输入,输出结果是离散值。例如用逻辑回归实现一个猫分类器,输入一张图片 x ,预测图片是否为猫,输出该图片中存在猫的概率结果 y。

2020-08-20 21:44:53 683

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除