Tao_666-CSDN博客

原创信贷风控常用指标

逾期天数（Days Past Due，DPD）：已逾还款计划约定应还日期的延滞天数。计头不计尾：自应还日起到实还日前一天期间的日期数计尾不计头：自应还日次日起到实还日期间的日期数举例：DPDn+表示逾期天数 >n天，如DPD30+表示逾期天数 >30天，说明：此处包不包括逾期天数30，不同的定义则口径也会有差异。账龄（Month Of Book, MOB）：资产放款后月份。举例：MOB0表示放款日至当月月底MOB1表示放款后第一个完整的月份MOB2表示放款后第二个完整的月份

2022-02-28 22:15:43 3845

原创 Hive-XML语言解析函数xpath_string()

1、xpath_string()语法: xpath_string(string xmlstr,string xpath_expression)返回值: string说明: 默认情况下，从 xml 字符串中返回第一个匹配到的表达式节点的值。hive> SELECT xpath_string ('<a><b>b1</b><b>b2</b></a>', '//b') FROM iteblog;OKb1//指定返回匹配到哪一

2021-08-03 17:25:47 2061

原创 hive-对多列求最大值的函数greatest()

greatest (a,b,c,d,d)greatest 求的是某几列的最大值，横向求最大(一行的多列记录求最大)可在信贷额度策略的盖帽场景中使用。和max()的区别？max(a)纵向求最大(一列的多行记录求最大)

2021-08-02 20:46:06 6536

原创聚合函数、group by/having/order by

11

2021-08-02 20:35:12 213

原创 Hive查询数据时怎么使用中文别名？

使用中文别名时，需要将中文别名用反单引号括起来（tab键上面的那个键可以敲出来）--例如把“ar”改为中文别名“通过率”select prod_name, ar as `通过率` from table_name;注意：上传csv文件建表时，不能使用中文的字段名称。使用命令建表时，也不要使用中文来命名字段名称。使用中文来命名字段，虽然不报错，但是建表后的字段名称是乱码的。因此，建表时注意使用英文名称来命名字段。...

2021-08-02 20:18:39 6610

原创 sql-rand()随机函数使用方法介绍

1、随机取数MySql或Hive数据库，从样本数据中随机提取数据表中的N条记录，可以使用rand()函数，结合使用order by对数据排序，用limit N取topNselect * from TableName order by rand() limit N案例：每月信用卡支出总额超过1000美元的客户有机会赢得抽奖。假设您在2019年10月从所有符合条件的客户中随机选择100名幸运客户，您是否可以编写一个查询以返回“user_id”列表作为此次抽奖的结果？--Task 1. Lucky Dr

2021-08-01 12:47:38 11351

原创 Hive-sql常用正则函数

1、%：模糊查询的通配符使用场景：模糊查询然后进行剔除测试数据，例：客户名称 not like ‘%测试%’模糊搜索查询如查询test表中如下数据：（1）查询name以“张”开头的数据：select * from test where name like ‘张%’;（2）查询name以“三”年结尾的数据：select * from test where name like ‘%三’;（3）查询name中包含“测试”的数据：select * from test where name l

2021-07-19 12:11:47 1419

原创 Hive删除库、表或表中部分数据总结

1.分区表删除某个partitionalter tablealter table table_name drop partition(partiton_name='xxx'))删除某个partition的部分数据可以换一种思路，用INSERT OVERWRITE TABLE满足WHERE后面条件的数据是表中这个分区需要保留的数据--下边代码table_name 是同一个表INSERT OVERWRITE TABLE table_name PARTITION(year='2018') S

2021-06-27 12:23:52 11477 2

转载 hive分箱函数ntile()

ntile()函数的作用是等频分箱，把观测值进行有序排列（默认升序），根据观测值的总个数等分为k部分，每部分当作一个分箱，即百分位数的概念，可以根据箱号选取前或后n分之几的数据。函数方法：ntile(n) over(order by col) as bucket_numn是指定的分箱数量。如果不能平均分配，则优先分配较小编号的箱，并且各个箱中能放的行数最多相差1备注：NULL值的处理，可以设置单独为一组，或者默认为最小值select col -- NULL默认为最小值

2021-04-18 17:03:53 5358

原创 hive sql 行转列&列转行

数据的存储有时候存在一个主键对应多行数据记录的情况，如果我们想把数据做行转列（合并）操作，就可以使用concat_ws(’,’, collect_set(column_name))函数，返回string。仅仅使用collect_set(column_name)函数返回的是数组，见下边第3条说明。说明：collect_set()去重，collect_list()不去重，column_name的数据类型要求是string1、多行转列create table students_info(`sno` st

2021-04-18 12:46:08 1745

原创 Tableau合并两个字符串字段（字符串拼接）

问题如何创建用于合并两个字符串变量的计算字段？环境Tableau Desktop答案使用加号 (+) 运算符合并两个字符串字段：转到“分析”>“创建计算字段”。为计算字段命名，并输入以下公式：[String1] + [String2]单击“确定”。其他信息使用加号 (+) 将两个字符串字段合并在一起 (“abc”+ “def” = “abcdef”)。如果两个字段之间需要空格，请修改上述公式 “abc” + " " + “def” = “abc def”需要注意：拼接的字符串

2021-01-20 14:37:57 8482

原创 Tableau画累积折线图，没有数据，但有累积折线问题的解决方法

问题示例：问题描述：1月4号之后没有数据，但是累计曲线还有，水平的累计曲线解决方法（1）修改时间为【X年X月】（2）修改为【离散】修改完成之后，累计折线图的展示就正常了

2021-01-20 11:08:57 1082

原创模型效果评估指标（ROC、AUC/KS、Lift、PSI）

ROC/AUC

2020-12-17 22:56:44 20871 3

原创 SQL将多个select语句的查询结果同时显示

如果我们需要将多个select语句查询的同样类型结果（字段数量必须一样，字段名称可以不一样，不一样时以第一个select语句的字段名称为准）一块同时显示出来，这时候就需要用到union或者union all关键字。1、union all（union表示联合的意思）对两个结果集进行并集操作，对相同的结果不进行剔重，包括重复行，不进行排序。2、union对两个结果集进行并集操作，对相同的结果进行剔重，不包括重复行，同时进行默认规则的排序。3、intersect对两个结果集进行交集操作，不包括重复行，

2020-11-28 21:45:00 12666

原创 SQL分组排序和排序函数（rank、dense_rank、row_number）

1、分组不连续排序rank() over(partition by order by )partition by进行分组，rank+order by 进行给每个分组内的记录进行排序2、分组连续排序dense_rank() over(partition by order by)注：不分组排序rank() over(order by )3、row_number() over(partition by order by )row_number()不会出现相同排序，就算两条记录参与排序的字段的

2020-11-28 21:25:05 20449

原创数据建模之特征工程

1、IV值2、信息熵、信息增益

2020-11-18 00:16:08 862

原创逻辑回归模型总结（Logistic Regression）

Logistic回归模型是一般线性回归模型的改进，一般线性回归模型中，假定y∼N(μ,σ2)y \sim N(\mu , \sigma^2)y∼N(μ,σ2)。当反应变量yyy是二分类或0—1变量时，此时yyy是服从Bernoulli分布（也称0-1分布或两点分布）的随机变量，即y∼B(n,p)y \sim B(n, p)y∼B(n,p)。Logistic回归函数是yyy 值限制在[0, 1]区间内的连续函数，应用较多的是Logistic函数（也称Logit变换），其形式为：Logistic回归模型的参

2020-11-15 21:35:21 2741

原创数据建模-变量编码（数值化）方法

为什么要编码？模型中的预测模型都只能对数值类型进行建模分析（Catboost模型可以直接对类别变量建模），所以需要对离散变量进行编码。编码原则：保证编码后变量的距离可计算且符合原始变量之间的距离度量。编码方法根据是否需要预测变量（也称目标、因变量、标签）分为有监督和无监督编码。无监督编码1、One-hot编码（一位有效编码）不可排序的离散变量编码，例如：性别2、Dummy variable编码（哑变量编码）不可排序的离散变量编码3、Lable编码（标签编码）可排序的离散变量编码，例如：学

2020-11-15 21:19:19 3178

原创聚类分析及Python建模

基本原则：是将有较大相似性的对象归为同一类，而将差异较大（相似性较小）的个体归入不同的类。度量相似性的聚类统计量（指标）：距离和相似系数1、距离：欧式距离、马氏距离、兰氏距离2、相似系数：相关系数、夹角余弦用CijC_{ij}Cij表示第iii个变量与第jjj个变量之间的相似系数，∣Cij∣\left\vert C_{ij} \right\vert∣Cij∣满足∣Cij∣⩽1\left\vert C_{ij} \right\vert\leqslant1∣Cij∣⩽1。∣Cij∣\left\v

2020-11-04 00:31:19 950 1

原创基于逻辑回归模型的评分卡构建

LR模型对进入模型变量的要求1、变量间不存在较强的线性相关性和多重共线性2、变量具有显著性3、变量具有合理的业务含义，符合业务逻辑第1点，可以使用单变量分析和多变量分析得到一定的约束，但是未必充分；第2点，从系数的P值进行检验；第3点，从系数的符号进行检验。变量的显著性为了获取与目标变量有较高相关性的变量，要求最终入模的变量的系数的P值很小，例如低于0.1。如果发现模型中某些变量不显著，需要检验一下两种可能性：1、该变量本身不显著；2、该变量显著，但是由于有一定的线性相关性或者多重共线

2020-11-01 23:41:06 610

原创 Python中numpy库的where函数

numpy.where() 有两种用法：np.where(condition, x, y)满足条件(condition)，输出x，不满足输出y。import numpy as npA = np.arange(-5, 10)print(A)#[-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9]B = np.where(A, 1, -1) #0为False，所以0变为-1print(B)#[ 1 1 1 1 1 -1 1 1 1

2020-11-01 22:15:15 3444

原创 Python中shape使用说明

shape属性可以获取矩阵（ndarray）的行列信息，获取的结果是一个元组,下面以二维数组为例import numpy as npx = np.array([[1,2,3,4,5],[4,5,6,7,8],[7,8,9,10,11],[10,11,12,13,14]])print(x.shape) #输出数组的行和列数print(x.shape[0]) #只输出行数print(x.shape[1]) #只输出列数'''输出(4, 5)45'''...

2020-11-01 20:39:15 2153

原创 Python中numpy库的linspace函数

inspace(start, stop, num=[], endpoint=True, retstep=False, dtype=None)在指定的间隔范围内返回均匀间隔的数字。在[start, stop]范围内计算，返回num个(默认为50)均匀间隔的样本。参数1、start [scalar] 返回序列的初始值。2、stop [scalar] 除非endpoint被设置为False，否则stop为序列的终点值。值得注意的是，当endpoint=False时，返回序列的步长会发生变化。3、

2020-11-01 20:17:25 865

原创 Python中numpy库的percentile函数

四分位数（Quartile），即统计学中，把所有数值由小到大排列并分成四等份，处于三个分割点位置的得分就是四分位数。第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）。im..

2020-11-01 19:48:44 3058

原创 Python中numpy库的unique函数

unique函数对于一维数组（元组）或列表，unique函数去除其中重复的元素，并按元素由小到大的顺序返回一个新的无重复元素列表import numpy as npA = [1, 2, 2, 5, 3, 4, 4] #列表a = np.unique(A)B = (1, 2, 2, 5, 5, 4, 3) #元组b = np.unique(B)C = ['fgfh','asd','fgfh','asdfds','wrh']c = np.unique(C)print(a)print(b

2020-11-01 00:14:51 2389

原创 Tableau连接数据的时间字段数据会自动减8小时问题解决方法

Tableau采用UTC，UTC是啥？下边百度的解释：协调世界时，又称世界统一时间、世界标准时间、国际协调时间。由于英文（CUT）和法文（TUC）的缩写不同，作为妥协，简称UTC。协调世界时是以原子时秒长为基础，在时刻上尽量接近于世界时的一种时间计量系统。中国大陆采用ISO 8601-1988的《数据元和交换格式信息交换日期和时间表示法》（GB/T 7408-1994）称之为国际协调时间，代替原来的GB/T 7408-1994；中国台湾采用CNS 7648的《资料元及交换格式–资讯交换–日期及时间的表示

2020-10-27 19:12:52 1985 1

原创信贷风控建模-无监督分箱方法

信贷风控建模-分箱方法新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markd

2020-10-25 18:36:53 966

baidu_38432186的博客