自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(302)
  • 资源 (13)
  • 收藏
  • 关注

原创 逻辑回归模型中的回归系数的正负性符号的理解

WOE编码方式:逻辑回归的线性公式可以表示为:Ln(p/(1-p)) =β0+β1*x1+β2*x2+β3*x3+...+βn*xn其中,P是逻辑回归模型预测的负样本概率,Xn表示经过WOE编码后的特征,在风控场景下当概率P表示负样本出现的概率时,Ln(P/(1-P)表示的是负样本概率与正样本概率之比,因此假如当WOE公式是由上图中给出的形式,即每个bin下的正样本占全局正样本...

2020-05-02 10:09:17 432

转载 事实表和纬度表概述

参考链接:https://www.cnblogs.com/wufengtinghai/archive/2013/05/04/3060265.html事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的...

2020-02-05 15:56:41 907 2

转载 Flink Window分析及Watermark解决乱序数据机制深入剖析-Flink牛刀小试

转发https://blog.csdn.net/shenshouniu/article/details/84455619:1 The Time针对stream数据中的时间,可以分为以下三种:Event Time:事件产生的时间,它通常由事件中的时间戳描述。Ingestion time:事件进入Flink的时间Processing Time:事件被处理时当前系统的时间Flink中...

2020-02-02 15:54:51 746

原创 xgboost等Tree-Model 对于特征是否需要进行one-hot编码的必要性分析

参考链接:https://blog.csdn.net/pipisorry/article/details/61193868xgboost 对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型对于数据缺失或者稀疏,xgboost 都可以自己处理纠结于 one-hot 编码问题主要是将分类信息转化为一定长度索引的二进制数据假设当前的数据类型是 annima...

2018-09-30 23:29:59 11062 1

原创 异常数据处理——箱型图分析原理

箱型图分析原理及Python例程一、箱型图分析原理箱型图可以通过程序设置一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值则识别为异常值,箱型图如下图所示:首先我们定义下上四分位和下四分位:上四分位我们设为U,表示的是所有样本中只有1/4的数值大于U ,即从大到小排序时U处于25%处;同理,下四分位我们设为L,表示的是所有样本中只有1/4的数值小于L,即从大到小...

2018-09-13 12:41:59 8688

原创 评分卡模型之特征工程中的BadRate单调与特征分箱之间的联系

Bad Rate:坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计得到的坏样本率bad rate 单调性与不同的特征场景:在评分卡模型中,对于比较严格的评分模型,会要求连续性变量和有序性的变量在经过分箱后需要保证bad rate的单调性。 1. 连续性变量: 在严格的评分卡模型中,对于连续型变量就需要满足分箱后 所有的bin的 bad ...

2018-09-03 16:55:34 8947 2

原创 一个快速完整的教程,以保存和恢复Tensorflow模型。

转发至:https://blog.csdn.net/tan_handsome/article/details/79303269在本教程中,我将会解释:TensorFlow模型是什么样的? 如何保存TensorFlow模型? 如何恢复预测/转移学习的TensorFlow模型? 如何使用导入的预先训练的模型进行微调和修改?这个教程假设你已经对神经网络有了一定的了解。如果不了解...

2018-08-08 15:05:58 73 1

原创 Tensorflow系列——Saver的用法

Saver的用法1. Saver的背景介绍 我们经常在训练完一个模型之后希望保存训练的结果,这些结果指的是模型的参数,以便下次迭代的训练或者用作测试。Tensorflow针对这一需求提供了Saver类。Saver类提供了向checkpoints文件保存和从checkpoints文件中恢复变量的相关方法。Checkpoints文件是一个二进制文件,它把变量名映射到对应的tensor...

2018-08-08 12:58:25 51 1

原创 模型的几大评价指标

下载 光大银行-《商业银行数据资产会计核算研究报告》下载 《商业银行数据资产管理体系建设实践报告》下载 上海银行《商业银行数据资产体系白皮书》5. 回复关键字:商业银行数据资产管理。1. 回复关键字:数据资源入表白皮书。下载 《2023数据资源入表白皮书》下载 《商业银行数据资产估值白皮书》, 获得数据资产相关白皮书下载地址。3. 回复关键字:数据资产估值。2. 回复关键字:光大银行。4. 回复关键字:上海银行。

2018-07-12 09:33:33 56

原创 共线性与过拟合的之间的区别分析

“过拟合”是把噪声的信息也学习进来了,导致泛化能力差,在新样本上表现差;“共线性”是自变量相关性太强,导致参数估计不可信,如果完全共线性则导致回归系数估计时系数矩阵的不可逆,使用迭代求解时不收敛,无法计算系数。例如线性回归时系数求解使用最小二乘法,系数估计beta=(XX’)^(-1) XY,如果两个变量相关,则XX’不可逆对于决策树算法,共线性与否其实没关系,极端例子,两个变量完全一样时,用哪个...

2018-07-05 10:23:05 86

原创 评分卡模型之WOE编码与bad rate单调性关系

一般在评分卡模型中对于特征的编码,更多的采用WOE编码,而不是one-hot编码形式。

2018-07-05 09:52:29 128

转载 GBDT原理及利用GBDT构造新的特征GBDT-FFM 点击率预估方案的Python实现

本帖转发源自:https://blog.csdn.net/shine19930820/article/details/71713680看了许多GBDT构建特征的资料整理而成,具体资料见Reference。背景1 Gradient Boosting2 Gradient Boosting Decision Tree3 GBDT应用-回归和分类GBDT构建新的特征思想GBDT与LR融合方案源码内容gen...

2018-07-02 09:17:36 3410

原创 线性可分 非线性可分 与 SVM 人工神经网络之间的关系详解

https://www.jianshu.com/p/491f0e2ef781在此之前, 我们在讨论分类问题时有个隐含的前提条件: 样本是线性可分的. 所谓的样本线性可分, 是指存在一个超平面可将其正确分类. 然而, 在实际场景中, 原始样本空间也许就不存在这样的超平面, 如异或逻辑分布的样本就不是线性可分的.线性分类器并不能处理非线性可分的数据. 不过, 如果原始样本是有限维, 那一定存在一个高维...

2018-06-29 17:38:12 95 1

原创 深入分析promise、async和await之执行顺序

let promise = new Promise(function(resolve, reject){ console.log('进入promise') //做一些异步操作 setTimeout(function(){ console.log('执行完成'); resolve('随便什么数据'); }, 2000);});promise.the...

2018-06-28 14:06:11 45 1

原创 推荐系统中的召回率与准确率

准确率,顾名思义,就是准确程度。通过正确数/总数得到。而正确数是什么,总数是什么呢?召回率,我们可以理解为找到的数目与总的需要我们找到的数目的比,那在推荐系统中,什么是找到的数目,什么是需要我们总的找到的数目呢?令R(u)表示在根据训练数据给用户做出的推荐列表,T(u)表示用户根据测试数据给用户做出的推荐列表,则召回率:准确率: 精确率是针对我们预...

2018-06-20 15:31:27 14939 3

原创 风控模型开发流程以及好坏样本 观察期 表现期的定义

模型开发流程评分模型流程图流程图阐述该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含义和计算方法数据获取:获取建模所需要的数据,一般分为内部为外部数据,内部数据例如贷款公司内部搜集存储的客户信息,例如客户在平台内部的登陆、注册、消费信息等,外部数据一般有第三方数据,例如人行征信报告、一些第三方机构提供的多头借贷等EDA与数据描述,EDA全称explore da...

2018-06-20 11:46:18 353

原创 JS异步执行机制的理解

说起JS的异步执行机制,如果百度一下,你首先会发现阮一峰的写过一篇关于异步机制的文章(http://www.ruanyifeng.com/blog/2014/10/event-loop.html),等你津津有味又一头雾水的看完,然后继续看百度的其他结果,然后会发现,阮一峰的这篇被另一个大牛朴灵给批判了(http://www.360doc.com/content/14/1011/13/1507765...

2018-06-13 19:33:02 4635 1

转载 如何理解Nginx, WSGI, Flask之间的关系

概览之前对 Nginx,WSGI(或者 uWSGI,uwsgi),Flask(或者 Django),这几者的关系一存存在疑惑。通过查阅了些资料,总算把它们的关系理清了。 总括来说,客户端从发送一个 HTTP 请求到 Flask 处理请求,分别经过了 web服务器层,WSGI层,web框架层,这三个层次。不同的层次其作用也不同,下面简要介绍各层的作用。图1:web服务器,web框架与 WSGI 的三...

2018-04-26 14:14:27 1798

转载 Python Pandas与Numpy中axis参数的二义性

原文:https://blog.csdn.net/wangying19911991/article/details/73928172Pandas与Numpy中一个非常重要的参数:axis.(轴)Stackoverflow问题如下:python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:>>>df = pd.DataFrame([[1,...

2018-03-29 16:15:13 357

原创 深入解读Logistic回归结果(一):回归系数,OR

转载地址:http://blog.sina.com.cn/s/blog_44befaf60102vznn.htmlLogistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。一 从线性回归到Logistic回归线性回归和Logistic回归都是广义线性模型的特例。假设有一个因变量y和一组自变量x1, x2, x3, ... , x...

2018-03-27 14:53:39 513

原创 回归结果的一般解释

一、参数解释:1、回归系数(coefficient)注意回归系数的正负要符合理论和实际。截距项的回归系数无论是否通过T检验都没有实际的经济意义。2、回归系数的标准误差(Std.Error)标准误差越大,回归系数的估计值越不可靠,这可以通过T值的计算公式可知3、T检验值(t-Statistic)T值检验回归系数是否等于某一特定值,在回归方程中这一特定值为0,因此T值=...

2018-03-26 17:38:19 181 1

原创 评分卡模型之多变量分析:相关性与多重共线性处理步骤

评分卡模型中对于特征的相关性与多重共线性问题比较关注,在特征经过WOE编码后,会进一步进行特征的单变量与多变量分析。在单变量分析中,我们可以通过检查变量的IV值,根据IV阈值来判定该变量是否该从特征体系中删除出去。在经过单变量分析后,我们还会进一步进行多变量分析,来检查特征之间的相关性与多重共线性问题,因为相关性与多重共线性问题的存在,可能会造成模型的过拟合问题。所有的单变量和多变量分析 都是针对...

2018-03-16 10:45:02 215 1

转载 Tensorflow中的seq2seq 应用

转载了另一篇博客文章: http://blog.csdn.net/wuzqchom/article/details/76651479, 而有关TensorFlow中 seq2seq的源码解析可以参考: https://zhuanlan.zhihu.com/p/27769667首先大致说下seq2seq, encoder-decoder, attention 之间的关系:seq2seq 指的是序列到...

2018-03-02 15:27:07 1773

原创 LSTM 实际神经元隐含层物理架构原理解析

最近看一些基于LSTM网络的NLP案例代码,其中涉及到一些input_size, num_hidden等变量的时候,可能容易搞混,首先是参照了知乎上的一个有关LSTM网络的回答https://www.zhihu.com/question/41949741, 以及github上对于LSTM比较清晰的推导公式http://arunmallya.github.io/writeups/nn/lstm/in...

2018-02-27 17:36:00 8946 2

原创 Tensorflow中RNN以及衍生RNN的源码

# Copyright 2015 Google Inc. All Rights Reserved.  #  # Licensed under the Apache License, Version 2.0 (the "License");  # you may not use this file except in compliance with the License.  # You may o...

2018-02-26 17:45:56 845

原创 LSTMCell 源码解析

相比于BasicLSTMCell, input_size 与 num_hidden 在LSTMCell中 并没有要求是相同的, LSTMCell根据输入向量大小input_size 来确定每个门对应的 隐含层神经元的全连接参数矩阵w以及bias参数的维度, 最终lstm cell的输出维度 等于 num_hidden, 具体物理架构图 参照另一篇 lstm网络的实际物理架构图在上图中,可以看到 实...

2018-02-26 12:42:23 1493

原创 CRF的模型参数学习问题

当一个CRF条件随机场模型参数确定后,基于CRF进行状态序列预测问题,比如给定中文语句观测序列,来预测整个中文语句当中每个词的词性,实质问题就是预测每个句子的隐含词性状态问题,在相关条件转移矩阵等模型参数给定的条件下,利用维特比算法,就能预测出概率最大的隐含状态,从而实现词性识别,本文主要是讨论CRF 的另一个问题,条件随机场的模型参数学习问题。参考了两篇博客以及书中关于条件随机场的相关概念介绍,

2018-02-05 17:35:53 2913

原创 CRF的概率预测问题, 结合词性标注场景应用

看过中的有关条件随机场CRF的公式推导说明,确实看到有点云里雾里,感觉有点点抽象,有些点光看公司也一时无法想明白原理,因此借鉴了国外的一片有关CRF的介绍性说明,结合词性标注场景应用,通过对线性条件随机场的特征函数推导,一下子明白了许多,同时放上两个中文翻译的博客链接,一定程度上也帮助我理解CRF与词性标注的应用介绍:国外论文: http://blog.echen.me/2012/01/03/

2018-02-02 11:38:55 1236

原创 维特比算法的通俗案例解释

维特比算法本质上就是一个动态规划DP算法,在知乎上看到了关于一个解释维特比算法的解释https://www.zhihu.com/question/20136144, 因此在此特意在转载下,并加入一些个人对于结合实际案例场景下的算法理解说明:1.题目背景:从前有个村儿,村里的人的身体情况只有两种可能:健康或者发烧。假设这个村儿的人没有体温计或者百度这种神奇东西,他唯一判断他身体情

2018-02-01 17:40:07 7666

转载 充分理解 name_scope 和 variable_scope

之前写过一个例子了: TensorFlow入门(四) name / variable_scope 的使用 但是当时其实还对 name / variable_scope 不是非常理解。* 起因:在运行 RNN LSTM 实例代码的时候出现 ValueError。 * 在 TensorFlow 中,经常会看到这 name_scope 和 variable_scope 两个东东出现,这到底是

2018-01-23 16:10:17 3786

转载 tf.get_variable() vs tf.Variable(),tf.name_scope() vs tf.variable_scope()

scope 命名方法对于一个复杂的 tensorflow 模型会有很多个变量, tf.variable_scope() :提供了简单的命名空间技术以避免冲突;tf.get_variable():从同一个变量范围内获取或者创建;见名知意,tf.Variable() variable 且以大写字母开头,该函数在于定义一个变量;tf.get_variable():可根据 name 值

2018-01-23 16:08:17 306

转载 tensorflow学习笔记--embedding_lookup()用法

embedding_lookup( )的用法 关于tensorflow中embedding_lookup( )的用法,在Udacity的word2vec会涉及到,本文将通俗的进行解释。首先看一段网上的简单代码:#!/usr/bin/env/python# coding=utf-8import tensorflow as tfimport numpy as npinput_

2018-01-11 16:26:57 1369

转载 长短时记忆网络(LSTM)的内部结构详解以及基于python 的实现案例

具体可参考转载的  零基础入门深度学习https://www.zybuluo.com/hanbingtao/note/581764

2018-01-11 15:01:04 6299

原创 BasicLSTMCell源码分析

class BasicLSTMCell(RNNCell): """Basic LSTM recurrent network cell. The implementation is based on: http://arxiv.org/abs/1409.2329. We add forget_bias (default: 1) to the biases of the forget

2018-01-11 11:50:31 874

转载 Variable 与 placeholder 之间的区别 + feed_dict

tf.Variable:主要在于一些可训练变量(trainable variables),比如模型的权重(weights,W)或者偏执值(bias);声明时,必须提供初始值;名称的真实含义,在于变量,也即在真实训练时,其值是会改变的,自然事先需要指定初始值; weights = tf.Variable( tf.truncated_normal([IMAGE_PIXELS, hi

2018-01-05 13:47:30 875

转载 卷积神经网络(CNN)学习笔记1:基础入门

概述卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功,在国际标准的ImageNet数据集上,许多成功的模型都是基于CNN的。CNN相较于传统的图像处理算法的优点之一在于,避免了对图像复杂的前期预处理过程(提取人工特征等),可以直接输入原始图像。图像处理中,往往会将图像看成是一个或

2018-01-03 19:56:10 485

转载 TensorFlow学习笔记2:构建CNN模型

深度学习模型TensorFlow很适合用来进行大规模的数值计算,其中也包括实现和训练深度神经网络模型。下面将介绍TensorFlow中模型的基本组成部分,同时将构建一个CNN模型来对MNIST数据集中的数字手写体进行识别。基本设置在我们构建模型之前,我们首先加载MNIST数据集,然后开启一个TensorFlow会话(session)。加载MNIST数据集Te

2018-01-03 19:54:00 1189

原创 显著性水平 P值 概念解释

P是“拒绝原假设时犯错误概率”又或者说是“如果你拒绝掉原假设实际上是在冤枉好人的概率”。不管怎么表达理解上都有点绕,所以你还是看例子吧。比如你做一个假设( null hypothesis):你的女性朋友平均身高2米,输入你统计的样本数据后,计算机给你返回的p值是0.03。这意味着如果你拒绝“女性朋友平均身高2米”这个结论,犯错的概率是0.03,小于0.05(人们一般认为拒绝一句话时犯错概率小于0....

2017-12-11 17:10:49 38161 13

转载 信用模型中对于类别变量的编码方式:dummy编码和WOE编码

最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式,我最大的困惑就在于建模时对分类自变量的处理方法。由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自

2017-12-11 15:43:06 4395

原创 评分卡模型中的IV和WOE详解

1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入

2017-12-11 13:17:39 57849 2

商业银行数据资产管理体系建设实践报告.pdf

商业银行数据资产管理体系建设实践报告

2023-12-29

用友BIP数据资产入表解决方案 发布与详解.pdf

用友BIP数据资产入表解决方案 发布与详解

2023-12-29

text-classification-cnn-rnn.rar

基于textcnn的广告营销类文本识别模型代码,可运行,语料在本账户的另一个资源中可以下载,直接放到该项目的工程目录下,直接跑起来,基于textcnn在广告文本的二分类识别中还是不错的选择

2020-07-09

广告识别文本.rar

广告营销类,文本语料,人工收集标注出广告类文本和非广告类文本,可直接跑lgb等二分类模型,对于识别一些广告营销类文本的模型训练,是个不错的语料

2020-07-09

待审核的广告营销文本样例.rar

里面有几万个广告营销类的文本,进一步筛选下,可以作为广告文本识别分类模型训练样本,可能部分为正常新闻,需要人工再过滤下

2020-06-05

文本分类训练集.rar

文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理

2020-05-02

信用评级模型,信用评级模型的12堂课,

信用评级模型的12堂课,详细阐述了互联网金融行业的消费信用风控模型设计,比较经典的风控模型材料 值得下载学习好好看看

2018-05-22

基于行为评分的自动信用卡额度管理系统设计

基于行为评分的自动信用卡额度管理系统设计, 详细介绍了如何基于用户的行为特征来建设信用卡的额度评估系统 设计 架构

2018-05-22

基于SAS平台的信用风险评分卡研究

基于SAS平台的信用风险评分卡研究,希望能够帮助风控评分的研究者

2017-12-12

hadoop集群内lzo的安装与配置

hadoop集群内lzo的安装与配置 搞hadoop的朋友好好看看

2013-07-01

HBase_官方文档-中文翻译

HBase_官方文档-中文翻译,有助于大家研究下hbase原理

2013-07-01

应届生大礼包-通信行业篇

应届生大礼包-通信行业篇 有利于通信专业找工作 涉及到摩托 爱立信 诺西等知名公司 招聘方面的经验

2010-03-22

TI DSPC6000 汇编工具介绍

一本详细介绍TI MS320C6000系列汇编工具的书,对于C6000 DSP开发人员很好用

2010-03-22

内存中引用与指针之间的使用与区别

深入理解引用与指针的关系从现象上看,指针在运行时可以改变其所指向的值,而引用一旦和某个对象绑定后就不再改变。这句话可以理解为:指针可以被重新赋值以指向另一个不同的对象。但是引用则总是指向在初始化时被指定的对象,以后不能改变,但是指定的对象其内容可以改变。

2009-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除