自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 智能营销模型-Uplift Model详解及Python使用

1. 背景概览在营销场景中,通过给用户营销动作,从而带来用户动支率的提升,如在给用户发送广告邮件或优惠券等。但营销客户可分为4类,分别为sure thing自然转化、persuadables营销敏感、lost causes无动于衷和sleeping dogs营销反作用,如下图所示(参考链接)。而除营销敏感以外人群进行营销都会增加运营成本,因此挖掘出对营销敏感的人群是非常有必要的。2. 方法介绍2.1 T-Learner论文地址:<>  T-Learner (Two Model)是将对照

2022-02-12 14:11:39 6023 4

原创 Logistics Regression原理-Python实现

  逻辑回归(Logistics Regression)是机器学习中常见的分类算法,算法以较高的稳定性和可解释性常在金融场景下使用。通过Sigmoid函数将线性回归(Linear Regression)值映射,从而实现二分类。  线性回归函数:z=θ0+θ1x1+θ2x2+θ3x3+⋯+θixi=θTxz = \theta _{0}+\theta _{1}x_{1}+\theta _{2}x...

2020-04-12 22:04:33 706

原创 从模型到风控评分卡

  评分卡模型是信用风险评估中普遍使用的模型,如下图所示。但由于WOE分箱、特征筛选和模型训练等步骤建立的模型,只能输出违约概率。下述将介绍LR模型转换为评分卡的过程并以Python实现。1 评分卡  评分卡是分数对模型输出几率(Odds)的线性表示,如几率(Odds)越高分数越低,公式如下:Score=A−Bln⁡(Odds)Score=A-B\ln\left ( Odds \righ...

2020-03-28 18:52:56 862

原创 Python源码保护

1 混淆改方法主要将函数、类名以及变量名等替换为其他符号,提高了阅读的难度,Python代码混淆网站。但该方法未改变程序的主体结构,实际效果并不是很好。具体如下图1所示:2 pycpython是先把源码py文件编译成pyc或者pyo,然后由python的虚拟机执行。最简单的加密方法是将编译后的pyc二进制文件发布,详情可以参考blog。但与其他语言一样编译后的产生的pyc依然可以通过反编译得...

2020-03-16 21:51:11 2790

原创 Python脚本后台运行

import timeimport datetimewhile True: time.sleep(1) print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))1 Linuxlinux nohup命令linux ps命令https://www.runoob.com/linux/linux-comm-ps...

2020-03-10 23:02:55 2194

原创 Python编码规范

  PEP8地址: https://legacy.python.org/dev/peps/pep-0008/  PEP8是Python社区针对Python语言编订的代码风格指南。编码风格的统一,从而提高代码可读性,降低团队协作开发的成本。1 命名规范  在PEP8中变量命名需有意义,避免无意义变量名,避免使用l(小写L)、I(大写i)和O(容易混淆)作为单字符变量。在对包、类、函数和全局变量...

2020-03-08 22:45:51 414

原创 Sklearn机器学习模型上线

    机器学习模型部署,常因开发语言或环境的不同,导致系统或应用无法直接使用离线模型,如在模型训练使用Python,而应用使用Java等其他语言开发。而在此状况下,模型部署上线,通常采用Falsk API服务、PMML、MLflow和Mleap等方法。以下将分别介绍Flask API 和PMML模型上线的方法。1 Flask API服务    Flask 安装:pip install fla...

2020-02-17 11:37:48 2821 1

原创 不平衡数据处理之SMOTE、Borderline SMOTE和ADASYN详解及Python使用

  不平衡数据在金融风控、反欺诈、广告推荐和医疗诊断中普遍存在。通常而言,不平衡数据正负样本的比例差异极大,如在Kaggle竞赛中的桑坦德银行交易预测和IEEE-CIS欺诈检测数据。对模型而言,不均衡数据构建的模型会更愿意偏向于多类别样本的标签,实际应用价值较低,如下图所示,为在不均衡数据下模型预测的概率分布。  不平衡数据的处理方法,常见方法有欠采样(under-sampling)和过采样(...

2020-01-15 22:49:58 50226 38

原创 评分卡中WOE和IV详解 Python实现

  信用评分卡模型是信用风险评估中普遍使用的模型,而在模型建立过程中,一般采用WOE(Weight Of Evidence 证据权重)对自变量进行编码,并根据IV(Information Value 信息量)作为变量筛选指标。1 WOE  WOE(Weight Of Evidence 证据权重)是一种对自变量编码的方法,需注意的是在WOE编码前需对数据进行分箱(分组或离散化)操作。具体而言,...

2020-01-05 19:45:35 6898 2

原创 Spark3 Mac单机环境搭建

1 相关准备  若已配置JDK和Scala,可跳过此步骤。1.1 JDK下载  Spark需要JDK版本8以上,以下以JDK8安装为例JDK下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html  下载完成后,点击安装包,一路继续完成安装。在完成后,在终端输入ja...

2019-12-29 21:11:20 973

原创 PSI群体稳定指数-Python实现

PSI群体稳定指数-Python实现PSI群体稳定指数Python 实现PSI群体稳定指数群体稳定性指标(population stability index PSI)用于衡量测试样本和建模样本分数间数据分布差异性,是模型稳定性的常见指标。公式如下所示:其中,bins是分箱数量,Actual是实际占比,Expected是预期占比。PSI小于0.1模型稳定性较高,0.1至0.2之间稳定性一般...

2019-12-26 22:34:32 8523 2

wt2g_inlinks

真实网络语料库WT2g的链接关系图,用于做PageRank等实验

2015-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除