#########WOE 评分模型 在logistics regression算法在评分卡上的实践

以德国信用数据为例,用logistict regression算法做信用评分卡原理性实现,因此并未考虑feature selection. 第一步:导入必要的库 1 2 3 import pandas as pd import numpy a...

2017-10-30 19:34:50

阅读数:1312

评论数:0

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。       本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量...

2017-10-30 13:41:20

阅读数:1784

评论数:0

数据挖掘模型中的IV和WOE详解

1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,...

2017-10-30 09:54:12

阅读数:205

评论数:0

spark dataframe API 整理 (差集等)

1,从列表中创建dataframe    列表的每一个元素转换成Row对象,利用parallelize()函数将列表转换成RDD,toDF()函数将RDD转换成dataframe    from pyspark.sql import Row    l=[Row(name='jack',age...

2017-10-27 13:37:38

阅读数:2224

评论数:0

梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)

梯度迭代树 算法简介:         梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。        梯度提升树依...

2017-10-26 20:24:14

阅读数:382

评论数:0

Python-Pandas 如何shuffle(打乱)数据?

在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。 应用情景: 我们有下面以个DataFrame 我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,...

2017-10-25 10:52:34

阅读数:2335

评论数:0

Python日期的加减等操作

1. 日期输出格式化 所有日期、时间的api都在datetime模块内。 1. datetime => string now = datetime.datetime.now() now.strftime('%Y-%m-%d %H:%M:%S') #输出2012-03-05 16...

2017-10-24 16:49:35

阅读数:1839

评论数:0

图数据库-Neo4j介绍与Cypher入门

1、Neo4j简介 2、单机安装和简单使用(社区版) 3、Cypher Query Language 3.1.基本语法 3.2.模式实践 3.3.Getting the Results You Want 3.4.Compose Large Stateme...

2017-10-24 11:03:26

阅读数:206

评论数:0

浅谈sql中的in与not in,exists与not exists的区别

1、in和exists in是把外表和内表作hash连接,而exists是对外表作loop循环,每次loop循环再对内表进行查询,一直以来认为exists比in效率高的说法是不准确的。如果查询的两个表大小相当,那么用in和exists差别不大;如果两个表中一个较小一个较大,则子查询表大的用exi...

2017-10-24 09:25:48

阅读数:92

评论数:0

######好好好######职场新人,如何快速学习并做好PPT?

职场新人,如何快速学习并做好PPT? 在职场混的人都知道,要想解决并做好一件事情。最好的技巧就是寻找问题背后的规律,最后再总结和复盘自己的经验。那么对于做PPT其实也是一样的道理。这次郑少就从模仿对象、建立素材库、设计文案三个方面分享一下。【这是一篇长文,仔细观看】一、模仿对象这次分享的模仿主要是...

2017-10-20 17:35:22

阅读数:325

评论数:0

pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

我所了解到的,将json串解析为DataFrame的方式主要有一样三种: 利用pandas自带的read_json直接解析字符串利用json的loads和pandas的json_normalize进行解析利用json的loads和pandas的DataFrame直接构造(这个过程需要...

2017-10-19 13:55:42

阅读数:906

评论数:0

JPype:实现在python中调用JAVA

JPype:实现在python中调用JAVA 一、JPype简述 1.JPype是什么?      JPype是一个能够让 python 代码方便地调用 Java 代码的工具,从而克服了 python 在某些领域(如服务器端编程)中的不足。 2.JP...

2017-10-19 10:21:02

阅读数:243

评论数:0

基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建 1. 介绍   在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1]。为了从海量数据中获得洞察力,需要部署分布式深度学习。现有的DL框架通常需要为...

2017-10-19 09:53:30

阅读数:1128

评论数:0

python 的日志logging模块学习

1.简单的将日志打印到屏幕   import logging logging.debug('This is debug message') logging.info('This is info message') logging.warning('Th...

2017-10-18 10:02:08

阅读数:104

评论数:0

大数据在营销和销售中的十大应用

本文旨在给为大数据革命性改变市场营销和销售的众多趋势做一个概述, 其中综合了十个有关报告,介绍了十个大数据在如今的市场营销和销售策略中的应用。其中增长很快的一个领域就是定价:管理价格以及通过销售网络传播和优化定价。在有大数据算法和先进的分析技术的今天,为给定的产品或服务实现价格优化越来越不在话下。...

2017-10-17 15:12:31

阅读数:853

评论数:0

Navicat使用技巧(附快捷键)

1.有时按快捷键Ctrl+F搜某条数据的时候搜不到,但是能用sql查出来,这是怎么回事? Ctrl+F只能搜本页数据,不在本页的数据搜不到,navicat每页只显示1000条数据。在数据多的时候navicat是分页显示的,你可以按右下角的左/右箭头翻到上/下一页。这时候如果数据太多的话,这么...

2017-10-16 14:53:25

阅读数:390

评论数:0

倾情大奉送--Spark入门实战系列

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark ML...

2017-10-13 16:54:58

阅读数:128

评论数:0

Spark入门实战系列--9.Spark GraphX介绍及实例

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式...

2017-10-13 16:49:06

阅读数:141

评论数:0

Factorization Machines 学习笔记

最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进...

2017-10-13 11:32:40

阅读数:205

评论数:0

FM算法能够学习到原始特征的embedding表示

FM算法是CTR预估中的经典算法,其优势是能够自动学习出交叉特征.因为这种特性,FM在CTR预估上的效果会远超LR. 说明:通过FM的公式可以看出,FM自动学习交叉是通过学习到每个特征xi的向量表示vi得到的.比如说,对于field A,其特征有100w种取值,如果使用one-hot编码...

2017-10-13 11:30:43

阅读数:169

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭