算法
panda_zjd
http://my.csdn.net/#
展开
-
GBDT和Xgboost模型对比总结
一.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。 答:本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClassifier为GBDT的分类类,GradientBoostingRegressor为GBDT的回归类,两者的参数类型相同,我们把参数分为两类,第一类是Boosting原创 2017-05-10 19:55:10 · 9631 阅读 · 2 评论 -
SMOTE原理及实现
Smote算法原理: python2.7 算法实现: 原算法只能针对N采样率小于100%或者N为100%整数的参数进行采样。我实现的代码可对任意N>0的采样率从进行SMOTE。详情见源码#!/usr/bin/env python2# -*- coding: utf-8 -*-from sklearn.neighbors import NearestNeighborsimport原创 2018-01-29 22:05:50 · 5628 阅读 · 0 评论 -
凸优化
定义:抛开凸优化的种种理论和算法不谈,纯粹的看优化模型,凸优化需满足一下三个条件: 1.在最小化(最大化)的要求下 2.目标函数是一个凸函数(凹函数) 3.约束条件所形成的可行域集合是一个凸集。凸优化问题为什么这么重要: 此处问题解答引自知乎:https://www.zhihu.com/question/246415751、有相当一部分问题是或等价于凸优化问题。有许多问题都可以直接建立成转载 2017-12-07 15:06:41 · 2546 阅读 · 0 评论 -
互联网金融业申请评分卡
评分卡模型由以下几类: 反欺诈评分卡、申请评分卡,行为评分卡、催收评分卡申请评分卡是指针对一个新用户申请信用卡或者初次借款时的评分卡模型。 特性: 稳定性:当总体逾期/违约概率不变时,分数的分布也应不变。 区分行:违约人群与正常人群的分数应当有显著差异 预测能力:低分人群的违约率更高。 和预期概率等价:评分可以精确反映违约/逾期概率,反之亦然。 思考: 商户评分模型?新的商户或者个原创 2017-12-06 22:21:14 · 1501 阅读 · 0 评论 -
Bagging 的python实现
#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on 2017-08-28 @author: panda_zjd"""import numpy as npimport pandas as pdfrom collections import defaultdict import randomfrom sklearn.mo原创 2017-09-03 17:03:41 · 12646 阅读 · 14 评论 -
Python 惰性计算
惰性计算(Lazy evaluation),是指仅仅在真正需要执行的时候才计算表达式的值。充分利用其特性可以带来很多便利。避免不必要的计算,带来性能的提升。 对于Python中的条件表达式 if x and y,在x为false的情况下y表达式的值将不再计算。而对于if x or y,当x的值为true的时候将直接返回,不再计算y的值。因此编程中可以利用该特性,在 and逻辑中,将小概率发生的条原创 2017-08-28 17:17:00 · 6598 阅读 · 0 评论 -
交叉验证(Cross Validation)
Sklearn库中关于交叉验证的资料 http://scikit-learn.org/stable/modules/cross_validation.html交叉验证(Cross Validation)主要是用来验证分类器性能的一种统计分析方法,其基本思想: 将原始数据进行分组,一部分为训练集,另一部分为验证集,首先用训练集对分类器进行训练,再利用验证集来测试得到的模型,以此来作为评价分类器的原创 2017-05-15 13:49:55 · 2162 阅读 · 0 评论 -
异常值检测算法
闲话:最近总是特别嗜睡,不知为何床对我的引力总是让我死死的赖在上面,大概是懒癌又犯了....要改。异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。常用的异常值检测方法主要有: 1. 简单统计量分析:先对变量做一个原创 2017-05-13 14:50:17 · 46100 阅读 · 2 评论 -
Python 排序算法小结
排序就是整理数据的序列,使其中元素按照特定的顺序排列的操作。排序可以使数据的存储方式更具有结构性。排序算法是算法的入门知识,每种算法都有其使用的场合,死记硬背很难记忆,理清算法的本质更有助于我们记忆。 对于每种排序方法,我们需要明白,每个算法的思想是什么?算法的稳定性如何,时间复杂度是多少,在什么情况下,算法出现最好(最坏)情况以及每种算法的具体实现。插入排序:顾名思义其基本操作是插入,不原创 2017-05-09 10:42:12 · 671 阅读 · 0 评论