自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

素质云笔记

营销数据科学:因果推断,CDP,用户画像,短视频挖掘等

  • 博客(17)
  • 资源 (5)
  • 收藏
  • 关注

原创 笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包)

本内容来源于CDA-DSC课程内容,原内容为《第16讲 汽车金融信用违约预测模型案例》。建立违约预测模型的过程中,变量的筛选尤为重要。需要经历多次的筛选,在课程案例中通过了随机森林进行变量的粗筛,通过WOE转化+决策树模型进行变量细筛。一、变量粗筛——随机森林模型与randomForest包不同之处在于,party可以处理缺失值,而这个包可以。

2016-06-21 17:32:25 18753 3

原创 笔记︱支持向量机SVM在金融风险欺诈中应用简述

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营欺诈一般不用什么深入的模型进行拟合,比较看重分析员对业务的了解,从异常值就可以观测出欺诈行为轨迹。同时欺诈较多看重分类模型的召回与准确率两个指标。较多使用SVM来进行建模。召回率,准确率,排序很准的模型排行:1、SVM

2016-06-21 15:50:01 4637

原创 笔记+R︱信用风险建模中神经网络激活函数与感知器简述

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、信用风险建模中神经网络的应用申请评分可以将神经网络+逻辑回归联合使用。《公平信用报告法》制约,强调评分卡的可解释性。所以

2016-06-21 15:29:30 4420

原创 笔记+R︱Logistics建模简述(logit值、sigmoid函数)

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营一、logit值的来源逻辑回归一般将因变量二分类变量的0-1转变为频率[0,1],变成odds(优势比,[0,+∞]),然后log一下成为Logit值([-∞,+∞])优势比就是:odds=P(y=1)/P(y=0)logit值:logit

2016-06-21 14:36:30 16467

原创 笔记︱金融风险之欺诈分类以及银行防控体系简述

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、欺诈、损失定义与分类1、欺诈分类欺诈与客户虚假信息识别的案例较少,因为这些案例的数据源十分敏感,一般不会流入市场供大众参考。

2016-06-21 11:33:51 6028 2

原创 笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营一、风控建模流程以及分类模型建设1、建模流程该图源自课程讲义。主要将建模过程分为了五类。数据准备、变量粗筛、变量清洗、变量细筛、建模与实施。2、分类模型种类与区别风控与其他领域一样,分

2016-06-21 10:56:42 63642 9

原创 笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)

巴塞尔协议定义了金融风险类型:市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。一、数据准备1、排除一些特定的建模客户用于建模的客户或者申请者必须是日常审批过程中接触到的,需要排除以下两类人:异常行为:销户、按条例拒绝、特殊账户;特殊账户:出国、卡丢失/失窃、死亡、未成年、员工账户、VIP;其他:欺诈(根据反欺诈评分)、主动销户

2016-06-20 20:09:51 56076 8

原创 笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、巴塞尔协议——银行业监管手册巴塞尔协议Ⅲ是全球银行业监管的标杆,其出台必将引发国际金融监管准则的调整和重组,影响银行的经营模式和发展战略。在巴塞

2016-06-20 15:27:00 12393 1

原创 学习笔记︱深度学习以及R中并行算法的应用(GPU)

笔记源于一次微课堂,由数据人网主办,英伟达高级工程师ParallerR原创。大牛的博客链接:http://www.parallelr.com/training/由于本人白痴,不能全部听懂,所以只能把自己听到的写个小笔记。一、GPU的基本概念GPU计算比CPU计算要快很多,计算机用GPU会大大加大速度问题:现在不是有量子计算,GPU与其有什么区别?那么量子计算

2016-06-17 14:15:15 9312

转载 R语言︱关联规则+时间因素=序贯关联规则

序贯模型=关联规则+时间因素。了解这个模型可以参考李明老师的《R语言与网站分析 [李明著][机械工业出版社][2014.04][446页]》,第九章,第二节的“序列模型关联分析”。以下贴一个网络中关于序贯模型,R语言的arulesSequences包:转载于网易博客:Tony Woo________________________________________________

2016-06-12 14:59:42 3528

原创 R语言︱线性混合模型理论与案例探究(固定效应&随机效应)

线性混合模型与普通的线性模型不同的地方是除了有固定效应外还有随机效应。___________________________________________________________________________________一、线性混合模型理论由两个部分来决定,固定效应部分+随机效应部分。与普通线性回归模型以及广义线性模型

2016-06-11 13:31:04 115680 7

原创 笔记︱精准营销解决方案以及营销组合评估

本笔记来源于CDA-DSC-L2R的课程。主要探讨精准营销的解决方案、营销组合的评估。一、精准营销实际问题充分利用各种技术手段,将营销信息推送到比较准确的受众群体中,从而既节省营销成本,又能起到最大化的营销效果。精准营销的本质是找到自己的目标客户并对其进行营销。精准营销可以解决如下的问题:实现解决方案扩大市场占有率

2016-06-10 12:28:07 5402

原创 R语言︱文本挖掘——词云wordcloud2包

笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下。但是在下载的时候,遇见很多问题,安装问题困扰着。。。包中函数本身很好用,很简单,而且图形众多。————————————————————————————————————————————一、wordcloud2包的安装官方郎大为老师github博客链接:https

2016-06-09 11:15:08 49475 26

原创 机器学习中的过拟合问题以及解决方案

笔者希望该笔记能够记录每个机器学习算法的过拟合问题。过拟合问题举例右图在训练数据上拟合完美,但是预测第11个时候,左图虽然拟合不完全,但是更合理;右图的-953,误差极大。一、随机森林不会发生过拟合的原因 在建立每一棵决策树的过程中,有两点需要注意 -采样与完全分裂。首先是两个随机采样的过程,ran

2016-06-08 20:24:18 47191 1

原创 笔记︱决策树族——梯度提升树(GBDT)

 每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~——————————————————————————— 本笔记来源于CDA DSC,L2-R语言课程所学进行的总结。   一、介绍:梯度提升树(Gradient Boost Decision Tree)Boosting算法和树模型的结合。按次序建立多棵树,每棵树...

2016-06-08 20:11:14 6812

原创 笔记︱多种常见聚类模型以及分群质量评估(聚类注意事项、使用技巧)

聚类分析在客户细分中极为重要。有三类比较常见的聚类模型,K-mean聚类、层次(系统)聚类、最大期望EM算法。在聚类模型建立过程中,一个比较关键的问题是如何评价聚类结果如何,会用一些指标来评价。本篇笔记来源于CDA-DSC,L2-R语言课程,感谢老师上课的辛勤。一、聚类分析的距离问题聚类分析的目的就是让类群内观测的距离最近,同时不同群体之间的距离最大。1、样本聚类距离

2016-06-08 11:52:09 66116

原创 R语言︱ 数据库SQL-R连接与SQL语句执行(RODBC、sqldf包)

数据库是极其重要的R语言数据导入源数据之地,读入包有sqldf、RODBC等。一、数据库读入——RODBC包RODBC包中能够基本应付数据库读入。一般数据数据库读入过程中主要有:连接数据库(odbcConnect)、读入某张表(sqlFetch)、读某表某指标(sqlQuery)、关闭连接(close)还有一些功能:把R数据读入数据库(sql

2016-06-07 10:22:35 35752 1

Rstudio Server + Docker + tensorflowR的dockerfile文件

Rstudio Server + Docker + tensorflowR - 云端使用R语言与GPU深度学习

2018-09-28

数美科技李田:机器学习与在数美业务上的落地

数美科技李田:机器学习与在数美业务上的落地

2018-09-11

Prophet的案例数据

R的Prophet包的数据集

2017-02-26

VMware-player-12.0.0-part1

VMware-player-12.0.0-part1,一共两个部分。

2016-11-19

word2vec自编译函数(By Jian Li,2014-09-21)

R语言实现深度学习word2vec,word2vec包含两个模型CBOW以及Skp-gram模型,R语言实现的过程中需要配置一些内容,详情见包中附件readme。

2016-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除