自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 深入理解计算机系统Task01

第1章 计算机系统漫游1.编译系统2.系统硬件架构图1.编译系统计算机系统:由硬件和系统软件组成,共同工作来运行应用程序hello.c程序示例:#include<stdio.h>int main(void) { printf("hello, world"); return 0;}编译系统:GCC编译器驱动程序读取源文件hello.c,翻译成一个可执行目标文件,执行4个阶段的程序(预处理器、编译器、汇编器和链接器)预处理阶段:根据以字符#开头的命令,修改原始

2021-12-14 23:28:30 124

转载 机器学习评估指标 AUC 综述

在互联网的排序业务中,比如搜索、推荐、广告等,AUC ( Area under the Curve of ROC ) 是一个非常常见的评估指标。网上关于 AUC 的资料很多,知乎上也有不少精彩的讨论,本文尝试基于自身对 AUC 的理解做个综述,水平有限,欢迎指出错误。俗话说,提出正确的问题就成功了一半,本文先提出以下几个问题,希望大家读完能够加深对下列问题的理解。AUC 有几种理解?AUC...

2019-10-12 09:26:19 962

转载 Spark+Hadoop+Hive 平台docker一键搭建

安装步骤先下载docker镜像(dokcer文件大概 26G 慢慢下吧哈)sudo docker pull hortonworks/sandbox-hdp:3.0.1sudo docker pull hortonworks/sandbox-proxy:1.0下载启动配置脚本,会在当前目录下生成sandbox-hdp-3.0.1文件夹git clone https://github.co...

2019-07-21 07:36:23 3934 1

转载 消费信贷业务风控英文词汇手册

文章转载 https://zhuanlan.zhihu.com/p/259514271、风控系统篇1.1 A card释义:Application scorecard 进件评分卡,对授信阶段提交的资料赋值的规则。举例: “进件”是传统银行的说法,指申请单。评分卡是对一系列用户信息的综合判断。随着可以收集到的用户信息变多,授信决策者不再满足于简单的if、else逻辑,而是希望对各个资料赋予权...

2019-07-05 08:51:04 1383

转载 七月在线--金融风控实战--第六课 风控数据挖掘方法--课程笔记

XGBoost 对于 GBDT 的改进1.传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。2.传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶...

2019-06-11 23:48:22 1018

转载 七月在线--金融风控实战--第三课 风控数据挖掘方法--课程笔记

文章目录申请评分卡中的数据预处理和特征衍生 构建信用风险类型的特征 数据预处理 特征的分箱 Best-KS ChiMerge 卡方分箱法 WOE编码 WOE编码的意义 变量筛选 特征信息度 单变量分析和多变量分析 单变量分析 ...

2019-05-29 10:01:11 1016

转载 七月在线--金融风控实战--第四课 风控数据挖掘方法--课程笔记

移除低方差特征VarianceThreshold 是特征选择的一个简单基本方法,它会移除所有那些方差不满足一些阈值的特征。默认情况下,它将会移除所有的零方差特征,即那些在所有的样本上的取值均不变的特征。 # ============去除方差小于阈值的特征============from sklearn.feature_selection import VarianceThreshold...

2019-05-29 09:06:50 555

原创 七月在线--金融风控实战--第二课 风控数据挖掘方法--课程笔记

决策树的定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性(features),叶结点表示一个类(labels)。用决策树对需要测试的实例进行分类:从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分...

2019-05-21 23:54:34 1110

原创 七月在线--金融风控实战--第一课 金融风控业务详解--课程笔记

建模流程:1.前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解,明确好模型的作用,项目周期时间和安排进度,以及模型效果的要求。2.模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型的细分,是否需要做拒绝推论,观察期,表现期的定义,好坏用户的定义,数据的获取途径等都要确定好。3.数据拉取及清洗:根据观察期和表现期的定义从数据池中...

2019-05-21 23:11:20 3585 1

转载 风控模型师面试准备--业务+模型篇

作者:Summer Memories链接:https://zhuanlan.zhihu.com/p/56474197来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。Q:互联网金融场景下的的风控模型种类?• 获客阶段:用户响应模型,风险预筛选模型。• 授信阶段:申请评分模型,反欺诈模型,风险定价模型,收益评分模型。• 贷后阶段:行为评分模型,交易欺诈模型,...

2019-05-21 22:32:48 4204 1

转载 python3正则表达式指南

1.正则表达式基础1.1 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语言里使用过正...

2019-05-13 09:29:12 127

转载 python3正则表达式

阅读目录1、正则表达式基础 2、re方法 3、match对象方法回到顶部1、正则表达式基础正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不然str自带方法,但功能十分强大。正则表达式的大致匹配流程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。python支持的...

2019-05-13 09:18:02 105

转载 Python生成器和迭代器

转载自https://www.cnblogs.com/wj-1314/p/8490822.html本节主要记录一下列表生成式,生成器和迭代器的知识点列表生成器  首先举个例子现在有个需求,看列表 [0,1,2,3,4,5,6,7,8,9],要求你把列表里面的每个值加1,你怎么实现呢?方法一(简单): 1 2 3 4 5 6 ...

2019-05-05 15:08:55 101

转载 xgboost原理及应用--转

1.背景关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战地址,希望对xgboost原理进行深入理解。2.xgboost vs gbdt说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章地址,gbdt无论在理论推导还是在应用场景实践都是相当完美的,但有一个问题:第n颗树训练时,需要用到第n-...

2019-04-19 11:46:47 210

转载 决策树

---------------------作者:braveryCHR原文:https://blog.csdn.net/bravery_again/article/details/81104914定义决策树是一种常见的机器学习算法,它的思想十分朴素,类似于我们平时利用选择做决策的过程。例如有人给我们介绍新的对象的时候,我们就要一个个特点去判断,于是这种判断的过程就可以画成一棵树,...

2019-04-18 13:45:43 428

转载 iForest (Isolation Forest)孤立森林 异常检测 入门篇

转自:https://www.jianshu.com/p/5af3c66e0410iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(详见新版教材“Outlier Analysis”第5和第6章 PDF)。其可以用于网络安全中的攻击检测,金融交易欺诈...

2019-04-17 17:08:22 1121

转载 互联网反欺诈构建概述

转自:https://mp.weixin.qq.com/s/oSJBQy4X5Sr5n1I0ZwvGpg一、互联网反欺诈体系的构建存在着以下三个原则: (准)实时性:考虑到用户体验,互联网反欺诈体系必须能够在非常短的时间内对欺诈行为进行认定,并给出判断。对于注册、登陆、支付等一些场景,必须能够在用户无感知到情况下对欺诈行为进行检测和认定。 自动化:由于(准)实时性的要求较高,决...

2019-04-17 16:05:48 1059

转载 风控决策引擎经验

转载自https://mp.weixin.qq.com/s/LDcquVOTlCKJluyWG3AGAA一套完整的风控体系,在风控中,少不了决策引擎,今天就浅谈一下风控决策引擎。一、优先级风控决策引擎是一堆风控规则的集合,通过不同的分支、层层规则的递进关系进行运算。而既然是组合的概念,则在这些规则中,以什么样的顺序与优先级执行便额外重要。风控系统的作用在于识别绝对风控与标识相对风险...

2019-04-17 09:08:08 4078

转载 特征选择 (feature_selection)

转自:http://www.cnblogs.com/stevenlk/p/6543628.html当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高...

2019-04-13 22:32:41 571

原创 MySQL(二)任务4打卡

项目七: 各部门工资最高的员工(难度:中等)项目八: 换座位(难度:中等)项目九: 分数排名(难度:中等)基本知识: sql语句中,使用@来定义一个变量。如:@abc sql语句中,使用:=来给变量赋值,:@abc:=123,则变量abc的值为123 sql语句中,if(A,B,C)表示,如果A条件成立,那么执行B,否则执行C,如:@abc :...

2019-04-06 10:53:14 168

原创 MySQL(二)任务3打卡

项目3:项目4:Case具有两种格式。简单Case函数和Case搜索函数。第一种 格式 :简单Case函数 :格式说明     case 列名    when 条件值1 then 选择项1    when 条件值2 then 选项2.......    else 默认值 end第二种 格式 :...

2019-04-03 23:40:46 177

原创 DataWhale MySql MISSION1_2019-03-31

1.1安装过程:sudo aptitude updatesudo aptitude install MySQL1.2基础命令

2019-03-31 23:35:16 118

转载 GBM参数

GBM参数转载自:http://blog.csdn.net/mr_tyting/article/details/73004303总的来说GBM的参数可以被归为三类:树参数:调节模型中每个决定树的性质Boosting参数:调节模型中boosting的操作其他模型参数:调节模型总体的各项运作从树参数开始,首先一个决定树的大致结构是这样的:

2018-02-03 11:16:44 1120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除