SMOTE原理及实现

Smote算法原理: python2.7 算法实现: 原算法只能针对N采样率小于100%或者N为100%整数的参数进行采样。我实现的代码可对任意N>0的采样率从进行SMOTE。详情见源码 #!/usr/bin/env python2 # -*- coding: utf-8 -*-...

2018-01-29 22:05:50

阅读数 2932

评论数 0

凸优化

定义:抛开凸优化的种种理论和算法不谈,纯粹的看优化模型,凸优化需满足一下三个条件: 1.在最小化(最大化)的要求下 2.目标函数是一个凸函数(凹函数) 3.约束条件所形成的可行域集合是一个凸集。凸优化问题为什么这么重要: 此处问题解答引自知乎:https://www.zhihu.com/...

2017-12-07 15:06:41

阅读数 1105

评论数 0

互联网金融业申请评分卡

评分卡模型由以下几类: 反欺诈评分卡、申请评分卡,行为评分卡、催收评分卡申请评分卡是指针对一个新用户申请信用卡或者初次借款时的评分卡模型。 特性: 稳定性:当总体逾期/违约概率不变时,分数的分布也应不变。 区分行:违约人群与正常人群的分数应当有显著差异 预测能力:低分人群的违约率更高。...

2017-12-06 22:21:14

阅读数 1031

评论数 0

《Python 金融大数据分析》记录

本文记录一些该书中出现的知识,方便需要使用的时候查询。 隐含波动率 隐含波动率是在其他条件下不变的情况下,输入公式不同期权行权价格和到期日测得的市场报价的那些波动率值。 这种情况下隐含波动率不是模型/公式的输入参数,而是对该公式进行某项数字化优化过程的结果 4.1 基础数据结构: Pytho...

2017-12-05 21:00:48

阅读数 2040

评论数 0

Bagging 的python实现

#!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on 2017-08-28 @author: panda_zjd """ import numpy as np impo...

2017-09-03 17:03:41

阅读数 4648

评论数 3

Python 踩坑记录

工作中遇到类似下面逻辑判断i = 1 while i!= 1.5: i = i+0.1 print i在想象中i应该停止在1.5就不输出了,但是实际的输出结果是无限循环。 这是因为在计算机的逻辑中,浮点数的存储规则决定了不是所有的浮点数都能准确表示,有些是不准确的,只是无限接近。如...

2017-08-29 15:54:05

阅读数 235

评论数 0

Python 惰性计算

惰性计算(Lazy evaluation),是指仅仅在真正需要执行的时候才计算表达式的值。充分利用其特性可以带来很多便利。 避免不必要的计算,带来性能的提升。 对于Python中的条件表达式 if x and y,在x为false的情况下y表达式的值将不再计算。而对于if x or y,当x的值...

2017-08-28 17:17:00

阅读数 2452

评论数 0

Python 开发实用的库

Python 重新 import 模块——reload() 转载自:http://blog.chinaunix.net/uid-7448695-id-2626493.html 写 Python 程序的时候,一边写模块一边调试。调试是在 python 自身的命令行终端进行的,效果还不错。当然有...

2017-07-12 10:50:14

阅读数 183

评论数 0

Mysql 控制台命令介绍

(一) 连接MySQL: 格式: mysql -h主机地址 -u用户名 -p用户密码 1、例1:连接到本机上的MYSQL 首先在打开DOS窗口,然后进入mysql安装目录下的bin目录下,例如: D:/mysql/bin,再键入命令mysql -uroot -p,回车后提示你输密码,如果刚安...

2017-06-19 16:49:54

阅读数 277

评论数 0

优化sql语句的策略

本文是对近期sql学习的整理感悟。 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。 3.应尽量避免在 where 子句中对字...

2017-06-18 22:03:10

阅读数 142

评论数 0

某互联网风控部门算法实习生面试

面试从投递简历到最终面试持续了近40天,也许是跟美团有缘吧…. 春招的时候,我并没有投递美团的职位,4月末的某一天,我看到某招聘网站上有风控部门的社招信息,咨询了下有无算法实习生岗位,于是与该公司开始了持续一个多月的面试…..一面(电话面):投递简历后的一周内,该公司员工与我进行了电话面试,面试...

2017-05-25 09:24:15

阅读数 2596

评论数 0

机器学习的前世今生:一部气势恢宏的人工智能发展史

本文转载自:http://www.iheima.com/zixun/2016/0911/158681.shtml?utm_source=tuicool&utm_medium=referral机器学习的发展是整个人工智能发展史上颇为重要的一个分支。其中故事一波三折,令人惊讶叹服,颇为荡气回肠...

2017-05-22 18:33:00

阅读数 333

评论数 0

Xgboost在Python库中的参数介绍 及其调参过程

本文介绍Xgboost在Python库中参数及其调参经验

2017-05-22 10:59:22

阅读数 1258

评论数 0

代价敏感学习

代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常...

2017-05-17 13:23:30

阅读数 11691

评论数 0

sklearn GridSearchCV

前言:记录常用工具,方便以后使用时可以随时查看,也希望能够帮到寻找这方面资料的人们。 sklearn中函数定义:sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_...

2017-05-16 12:55:35

阅读数 920

评论数 0

交叉验证(Cross Validation)

Sklearn库中关于交叉验证的资料 http://scikit-learn.org/stable/modules/cross_validation.html 交叉验证(Cross Validation)主要是用来验证分类器性能的一种统计分析方法,其基本思想: 将原始数据进行分组,一部分为训练...

2017-05-15 13:49:55

阅读数 1289

评论数 0

异常值检测算法

闲话:最近总是特别嗜睡,不知为何床对我的引力总是让我死死的赖在上面,大概是懒癌又犯了....要改。 异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响,重视异常值的出现,分析其产生的原因,...

2017-05-13 14:50:17

阅读数 27191

评论数 1

5月新浪微博算法实习面经

前言:运气也是实力的一部分,非洲来的我如何才能搭载上去往欧洲的飞机..... 面试分了两轮,时间长达2个多小时。 一面:面试官看过我的简历后,告知我简历内容偏少,我所做项目没有和他们部分匹配的项目,希望我能够尽可能的描述自己的能力,看能不能匹配上面试官所在部分(微博搜索部)….尴尬…..一面主要...

2017-05-12 16:41:48

阅读数 1553

评论数 0

GBDT和Xgboost模型对比总结

一.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。 答:本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClassifier为GBDT的分类类,GradientBoostin...

2017-05-10 19:55:10

阅读数 7585

评论数 1

Python 排序算法小结

排序就是整理数据的序列,使其中元素按照特定的顺序排列的操作。排序可以使数据的存储方式更具有结构性。排序算法是算法的入门知识,每种算法都有其使用的场合,死记硬背很难记忆,理清算法的本质更有助于我们记忆。 对于每种排序方法,我们需要明白,每个算法的思想是什么?算法的稳定性如何,时间复杂度是多少...

2017-05-09 10:42:12

阅读数 401

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭