- 博客(224)
- 收藏
- 关注
原创 mac下,pycharm-notebook自动代码补全功能设置
经过查阅资料,发现需要安装代码自动补全器nbextensions1.1 安装nbextensionspipinstall jupyter_contrib_nbextensions报错:ERROR: Could not build wheels for pyzmq, argon2-cffi-bindings which use PEP 517 and cannot be installed directly提示pip版本太低,因此更新pip(on treminal)python .
2022-03-28 17:11:24 1945 2
原创 风控模型开发全流程总结 - (一)
背景:进入风控领域快一年了,这段时间里get了很多新的风控知识,很有意思。由于最近接触的样本不均衡很严重,需要做重采样或者欠采样来平衡化样本,因此需要做模型预测概率校验。之前没有接触过,而后看了一些文档和材料,特写下这篇文章,算是当前对风控模型的小梳理,后续持续更新个人理解。前言:当前个人接触的业务模式,更多的工作是cover在建立贷前a卡(授信评分卡)。当然贷中b卡(行为评分卡),贷后c卡(催收评分卡)也很重要,先立下一个flag, 先总结a卡,等后续对bc卡有了更深入的认知之后,再来总结。首先:
2020-11-02 21:48:41 8400 3
原创 每日一踩坑(tf) 之 tf.sort() 与 sort_inde()的转化,数据读取tf.decode_csv()函数
前言:对标最近的需求,需要在tf中实现诸如SQL中的order by col1, col2 或 pandas中的sort_index([col1, col2],ascending=False)原理;另外将tensorflow中将placeholder读取方式变成tf.recorder方式。1) 首先,明确SQL中的order by col1, col2 和pandas中的sort_index(...
2020-04-25 16:21:43 2116
原创 每日一踩坑(tf) 之 tf.tf.reset_default_graph() to tf.Graph()
今天在训练tensorflow模型的时候发现,静态图的reuse问题bug.以下是问题的描述及解决办法 .问题发生在对同一复杂网络的调参过程中,首先模型跑了一个结果出来,然后第二次调参实验时发现以下问题:1.错误描述: ValueError: Variable tf.nn.dynsmic_rnn/rnn/basic_lstm_cell/kernel already exists, disa...
2020-04-18 14:36:22 1906
原创 在excel中构建lift table时遇到的$绝对引用、相对引用、混合引用的使用
Back: 在excel中经常会看到绝对引用、相对引用、混合引用的踪影。例如在计算lift table时,可用其计算TPR FPR KS1. 先show一下lift table是什么:Lift Table一般包含以下特征列:好占比(1) - 坏占比(0) - 累计好占比(1:TPR) - 累计坏占比(0:FPR) - ks=max(累计好占比-累计坏占比)=max(TPR-FPR)。...
2020-04-10 21:06:36 1114
原创 关于stack和hstack的区别
import numpy as npa=np.array([[1,2,3,21], [4,5,6,22]])b=np.array([[7,8,9,22], [10,11,12,23]])d=np.stack((a,b),axis=1)print(d.shape)print(d)g = d.reshape((1,2,e.shape[-1]))print(g.shape)...
2020-04-08 12:08:42 347
原创 tensroflow 三种数据读取的方法:placeholder feed_dict、queue队列、Dataset三种方式
参考以下资料:https://www.cnblogs.com/LXP-Never/p/11460000.html具体个人总结,后续更新。
2020-03-10 10:11:29 428
原创 python-tensorflow框架学习 -3
本文接着python-tensorflow框架学习 -2,本部分后面会持续更新,目前只写了两个子部份: CNN + RNNpart three: CNN - mnist classification; RNN - mnist classification ; RNN - mnist regression* CNN - mnist classification : 利用CNN网络构建m...
2020-02-23 21:28:21 475 3
原创 python-tensorflow框架学习 -2
本文接着python-tensorflow框架学习 -1 继续写续集:主要针对上文末尾提到的一些复杂的部分的详细说明,另预告在下一续集中会把简单的网络结构+ 复杂的一些优化网络部分 ---> 构成稍微完善的tf框架。part two : 简单的回归网络、简单的分类网络、保存/读取文件、优化器的选择、tensorboard运用、split data的切分数据集。* simple ...
2020-02-23 20:55:14 395
原创 python-tensorflow框架学习 -1
前言: 关于深度学习入坑一段时间了,刚开始学习的时候也接触过tensorflow框架,写过一点代码,后来觉得静态图对于我这种学渣来说有点南,后来找到了比较友好的pytorch。因此对于tensorflow完全陌生啊啊啊! 而且tf2.0版本参考了pytorch动态图的思想,将tf进行了优化。另谈一下最近为什么想要把tf学起来的原因:因为项目需要呀 哈哈哈。本学习主要是借助张沫帆(莫烦)大佬的学...
2020-02-23 20:12:07 341
原创 智能风控平台之决策引擎介绍
前言:最近刚接触了决策引擎,所以搜了一点关于决策引擎的资料看,下面针对资料进行回溯。part one本part 主要讲解了现在市面上主流风控决策引擎产品包含的核心功能模块,其中主要是规则、评分卡、表达式、模型、决策流等功能模块。互联网金融的兴起,金融科技向传统金融渗透,智能风控平台应运而生。决策引擎担任着智能风控平台的核心角色,在当代的互联网金融浪潮中至关重要,在介绍决策引擎之前,首先要...
2020-01-23 10:57:41 5750 2
原创 用于风控模型的九种数据维度(常用的金融数据)
前言:依赖于大数据和人工智能的发展,金融行业的发展也是得到了蓬勃发展,互联网金融下的风控问题也逐渐成为了焦点。下面先先介绍一下前储知识,重点阐述一下互联网中常用的九种维度的金融数据。—————— 参考以下博客:https://blog.csdn.net/liberty_xm/article/details/53183648大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的...
2020-01-22 11:23:27 4142
原创 风控中消费信贷板块的英文词汇
前言:最近在学习消费信贷的业务场景,也是被各种专业术语弄的很懵,下面是来自网上的一些关于分控中消费信贷的一些专业术语:part one: 风控系统篇1.1 A card释义:Application score card 进件评分卡,对授信阶段提交的资料赋值的规则。举例: “进件”是传统银行的说法,指申请单。评分卡是对一系列用户信息的综合判断。随着可以收集到的用户信息变多,授信决策者不再...
2020-01-22 09:08:08 2584
原创 浅谈mysql与Redis关系
从报表到业务的循序渐进的了解,其中涉及到数据链路的过程。前言:mysql与redis的区别一直是热点,下面就个人的了解进行简单阐述,如有问题,可多多交流。总结这两者的区别时,先简单阐述一下关系型数据库与非关系型数据库的大框架关系:part one: RDS 与NoSQL的区别i) RDS(Relational Database Service,关系型数据库服务),阿里云关系型数...
2020-01-13 16:51:34 891
原创 风控知识随笔(一)
20191224 Morning1)PD 贷款的违约概率 --- 银行的A B C 卡2) 一般而言 模型的AUC值超过80% 或者 KS值超过45%,需要对模型的解释性做详细的刻画,否则会被认为是不可靠的模型。3)业务场景中的模型或者算法不一定追求100%的模型,需要的是不仅仅在当前数据集上100%效果,而是长期数据集上稳定的效果,是一个稳定的刻画,因此一般而言的一期开发是选择一...
2019-12-27 22:46:52 826 1
原创 20191223-20191227风险指标的学习总结
前言:接触风险3周了,今天总结一下现有学习到的常用风险指标及其含义,便于后续回顾、沉淀。本次主要是贷款领域的信用风险知识。贷款流程分为:引流(业务漏斗模型) – 评估授信 – 营销支用 – 还款记录 – 余额监控 – 逾期追踪 – 资产质量考核(风控漏斗模型)。1.引流中的业务漏斗模型是归属于营销同学来设计策略和方案(曝光、上传资料、授信等流程监控的漏斗模型)2.评估授信:目前授信日监控报...
2019-12-27 22:36:54 2375
原创 一个小时安装MYSQL并连接远程服务器,查看远程服务器上的数据。防止踩坑!
前言:来**快一个月了,今天需要连接某服务器上数据进行分析,因此需要安装MYSQL并连接服务器查看某数据库中的某表信息,下面简单介绍一下。一、下载MYSQL并安装:参考以下两篇博客:https://blog.csdn.net/qq_33144861/article/details/80267462+https://blog.csdn.net/qq_36761831/article/de...
2019-12-27 11:35:23 267
原创 中文词向量的训练
最近在做毕设,需要对中文进行向量化表示,现有的最全中文词向量预训练向量有:最全中文词向量part 1:以上链接中的词向量介绍:格式预先训练好的向量文件是文本格式。每行包含一个单词和它的向量。每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个数字表示向量大小。除了密集的单词向量(用SGNS训练)之外,我们还提供稀疏向量(用PPMI训练)。它们与liblinear的...
2019-11-09 09:39:28 7900
原创 中文词向量学习记录-综述
最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章:参考原文链接:https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finishedPaper Component-Enhanced Chinese Character Embeddings 这是一篇2015年发表在E...
2019-11-01 15:33:16 1031
原创 机器学习面试题集(个人疑惑的题)
找工作一直在找机器学习的岗位,最近在博客上看到一些面试题,做了一下,对自己不懂的地方做了一些总结:1. 假设X公司的员工收入分布中位数为$35,000,25%和75%比例处的数值为$21,000 和$53,000。收入$1会被认为是异常值吗?答案:需要更多信息解析:异常值是指样本中的个别值明显偏离其余观测值,也叫离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法...
2019-10-04 20:19:08 40589
原创 信用卡评分模型(数据获取+数据预处理+探索分析+变量选择+模型开发+模型评估+信用评分+建立评分系统)
最近两次遇到关于信用卡评分的题目,遂了解一波。Reference:基于python的信用卡评分模型(超详细!!!)https://www.jianshu.com/p/f931a4df202chttps://blog.csdn.net/zs15321583801/article/details/81234446https://blog.csdn.net/han_xiaoyang...
2019-09-24 21:09:28 18088 6
原创 骰子游戏 python 实现
1.扔三颗骰子,求点数之和最大值出现的概率?思想:三颗骰子的和数取值范围在[3,18],越靠近两边出现的概率越小,点数最大的应该在中间,以下计算9,10,11,12的概率:* * 首先计算出现9的概率:为了避免重复和遗漏,将点数和为9分成两种情况:(1)三个骰子点数都不相同:(1,2,6),(1,3,5),(2,3,4)(2)可以允许存在相同的点数:(2,2,5),(3,3,3),(4...
2019-09-24 13:27:45 1457
原创 词向量学习总结 [独热表示-分布式表示-word2vec -Glove - fast text - ELMO - BERT]
最近面试**公司,被问到word2vec和Glove的损失函数的区别,有点忘记了,回来后便看了一下。参考博客资料:NLP中词向量对比:word2vec/glove/fastText/elmo/GPT/bert该博客的目录:想知道具体的解释,可以点进上方的链接!一、文本表示和各词向量间的对比1、文本表示哪些方法?2、怎么从语言模型理解词向量?怎么理解分布式假设?3、传统的词向...
2019-09-22 16:36:43 6053 1
原创 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解
1.衡量数据离散程度的统计量:数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择。首先针对不同的衡量方式的应用场景大体归纳如下:极差:极差为数据样本中的最大值与最小值的差值,是所有方式中最为简单的一种,它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极差...
2019-09-22 11:17:12 5322
原创 letcode贪心算法练习+6个股票问题总结
Date : 2019-08-211. 宝石与石头给定字符串J 代表石头中宝石的类型,和字符串 S代表你拥有的石头。 S 中每个字符代表了一种你拥有的石头的类型,你想知道你拥有的石头中有多少是宝石。J 中的字母不重复,J 和 S中的所有字符都是字母。字母区分大小写,因此"a"和"A"是不同类型的石头。示例 1:输入: J = "aA", S = "aAAbbbb"输出...
2019-08-21 18:26:44 687
原创 letcode动态规划题
1. 除数博弈爱丽丝和鲍勃一起玩游戏,他们轮流行动。爱丽丝先手开局。最初,黑板上有一个数字 N 。在每个玩家的回合,玩家需要执行以下操作: 1) 选出任一 x,满足 0 < x < N 且 N % x == 0 。 2) 用 N - x 替换黑板上的数字 N 。如果玩家无法执行这些操作,就会输掉游戏。只有在爱丽丝在游戏中取得胜利时才返回 True,...
2019-08-20 21:24:01 359
原创 机器学习中集成学习知识点总结(Baggig(RF)+Boosting(AdaBoost+GBDT+XGBoost+LightGBM))
Date: 2019-08-19机器学习岗位,集成学习是必不可少要了解的知识点,一、 前言介绍relation:所谓集成学习,是指构建多个分类器(弱分类器)对数据集进行预测,然后用某种策略将多个分类器预测的结果集成起来,作为最终预测结果。通俗比喻就是“三个臭皮匠赛过诸葛亮”,或一个公司董事会上的各董事投票决策,它要求每个弱分类器具备一定的“准确性”,分类器之间具备“差异性”。集成学...
2019-08-19 12:53:20 584
原创 百度笔试题练习[1] (08-17)
Date: 2019-08-171. 有如图所示的二叉树,其先序遍历的序列为( ) ABDGCEHF 【回顾树的先序遍历-中序遍历-后序遍历】2. 下列有关串,说法正确的是( ) AA 除主串S本身外,S的其他子串称为S的真子串 (对比真子集的概念)B 子串在主串的位置是子串最后一个字符在主串的位置 (应该是子串的第一个位置)C 空串与...
2019-08-17 19:47:14 8309
原创 数据分析笔试题【小红书 2019】
2019年 第一批1.想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是 从中抽取的1000名中学生的身高2. 偏态分布一般用以下哪个指标描述集中趋势 中值 (偏态分布,平均值的代表性比较差 ,所以使用中值)3. 在以下不同的场景中,使用的分析方法不正确的有 DA. 根据商家最近一年的经营及服务数据,用聚类算法判断出小红书商家在各自主营类目下所...
2019-08-16 20:23:51 8529
原创 算法基础知识【6】(8-16) + 计算机网络基础知识【10】(08-16)
Date: 2019-08-16part one 算法基础知识1. 为查找某一特定单词在文本中出现的位置,可应用的串运算是( ) 子串定位2. 算法独立于具体的程序设计语言,与具体的计算机无关() 对,与计算机无关,但是与具体的程序设计语言有一定的相关性补充:算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表...
2019-08-16 18:29:32 4060
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人