信贷风控常用指标 逾期天数 (Days Past Due,DPD):已逾还款计划约定应还日期的延滞天数。计头不计尾:自应还日起到实还日前一天期间的日期数计尾不计头:自应还日次日起到实还日期间的日期数举例:DPDn+表示逾期天数 >n天,如DPD30+表示逾期天数 >30天,说明:此处包不包括逾期天数30,不同的定义则口径也会有差异。账龄(Month Of Book, MOB):资产放款后月份。举例:MOB0表示放款日至当月月底MOB1表示放款后第一个完整的月份MOB2表示放款后第二个完整的月份
Hive-XML语言解析函数xpath_string() 1、xpath_string()语法: xpath_string(string xmlstr,string xpath_expression)返回值: string说明: 默认情况下,从 xml 字符串中返回第一个匹配到的表达式节点的值。hive> SELECT xpath_string ('<a><b>b1</b><b>b2</b></a>', '//b') FROM iteblog;OKb1//指定返回匹配到哪一
hive-对多列求最大值的函数greatest() greatest (a,b,c,d,d)greatest 求的是某几列的最大值,横向求最大(一行的多列记录求最大)可在信贷额度策略的盖帽场景中使用。和max()的区别?max(a)纵向求最大(一列的多行记录求最大)
Hive查询数据时怎么使用中文别名? 使用中文别名时,需要将中文别名用反单引号括起来(tab键上面的那个键可以敲出来)--例如把“ar”改为中文别名“通过率”select prod_name, ar as `通过率` from table_name;注意:上传csv文件建表时,不能使用中文的字段名称。使用命令建表时,也不要使用中文来命名字段名称。使用中文来命名字段,虽然不报错,但是建表后的字段名称是乱码的。因此,建表时注意使用英文名称来命名字段。...
sql-rand()随机函数使用方法介绍 1、随机取数MySql或Hive数据库,从样本数据中随机提取数据表中的N条记录,可以使用rand()函数,结合使用order by对数据排序,用limit N取topNselect * from TableName order by rand() limit N案例:每月信用卡支出总额超过1000美元的客户有机会赢得抽奖。假设您在2019年10月从所有符合条件的客户中随机选择100名幸运客户,您是否可以编写一个查询以返回“user_id”列表作为此次抽奖的结果?--Task 1. Lucky Dr
Hive-sql常用正则函数 1、%:模糊查询的通配符使用场景:模糊查询然后进行剔除测试数据,例:客户名称 not like ‘%测试%’模糊搜索查询如查询test表中如下数据:(1)查询name以“张”开头的数据:select * from test where name like ‘张%’;(2)查询name以“三”年结尾的数据:select * from test where name like ‘%三’;(3)查询name中包含“测试”的数据:select * from test where name l
Hive删除库、表或表中部分数据总结 1.分区表删除某个partitionalter tablealter table table_name drop partition(partiton_name='xxx'))删除某个partition的部分数据可以换一种思路,用INSERT OVERWRITE TABLE满足WHERE后面条件的数据是表中这个分区需要保留的数据--下边代码table_name 是同一个表INSERT OVERWRITE TABLE table_name PARTITION(year='2018') S
hive分箱函数ntile() ntile()函数的作用是等频分箱,把观测值进行有序排列(默认升序),根据观测值的总个数等分为k部分,每部分当作一个分箱,即百分位数的概念,可以根据箱号选取前或后n分之几的数据。函数方法:ntile(n) over(order by col) as bucket_numn是指定的分箱数量。如果不能平均分配,则优先分配较小编号的箱,并且各个箱中能放的行数最多相差1备注:NULL值的处理,可以设置单独为一组,或者默认为最小值select col -- NULL默认为最小值
hive sql 行转列&列转行 数据的存储有时候存在一个主键对应多行数据记录的情况,如果我们想把数据做行转列(合并)操作,就可以使用concat_ws(’,’, collect_set(column_name))函数,返回string。仅仅使用collect_set(column_name)函数返回的是数组,见下边第3条说明。说明:collect_set()去重,collect_list()不去重,column_name的数据类型要求是string1、多行转列create table students_info(`sno` st
Tableau合并两个字符串字段(字符串拼接) 问题如何创建用于合并两个字符串变量的计算字段?环境Tableau Desktop答案使用加号 (+) 运算符合并两个字符串字段:转到“分析”>“创建计算字段”。为计算字段命名,并输入以下公式:[String1] + [String2]单击“确定”。其他信息使用加号 (+) 将两个字符串字段合并在一起 (“abc”+ “def” = “abcdef”)。如果两个字段之间需要空格,请修改上述公式 “abc” + " " + “def” = “abc def”需要注意:拼接的字符串
Tableau画累积折线图,没有数据,但有累积折线问题的解决方法 问题示例:问题描述:1月4号之后没有数据,但是累计曲线还有,水平的累计曲线解决方法(1)修改时间为【X年X月】(2)修改为【离散】修改完成之后,累计折线图的展示就正常了
SQL将多个select语句的查询结果同时显示 如果我们需要将多个select语句查询的同样类型结果(字段数量必须一样,字段名称可以不一样,不一样时以第一个select语句的字段名称为准)一块同时显示出来,这时候就需要用到union或者union all关键字。1、union all(union表示联合的意思)对两个结果集进行并集操作,对相同的结果不进行剔重,包括重复行,不进行排序。2、union对两个结果集进行并集操作,对相同的结果进行剔重,不包括重复行,同时进行默认规则的排序。3、intersect对两个结果集进行交集操作,不包括重复行,
SQL分组排序和排序函数(rank、dense_rank、row_number) 1、分组不连续排序rank() over(partition by order by )partition by进行分组,rank+order by 进行给每个分组内的记录进行排序2、分组连续排序dense_rank() over(partition by order by)注:不分组排序rank() over(order by )3、row_number() over(partition by order by )row_number()不会出现相同排序,就算两条记录参与排序的字段的
逻辑回归模型总结(Logistic Regression) Logistic回归模型是一般线性回归模型的改进,一般线性回归模型中,假定y∼N(μ,σ2)y \sim N(\mu , \sigma^2)y∼N(μ,σ2)。当反应变量yyy是二分类或0—1变量时,此时yyy是服从Bernoulli分布(也称0-1分布或两点分布)的随机变量,即y∼B(n,p)y \sim B(n, p)y∼B(n,p)。Logistic回归函数是yyy 值限制在[0, 1]区间内的连续函数,应用较多的是Logistic函数(也称Logit变换),其形式为:Logistic回归模型的参
数据建模-变量编码(数值化)方法 为什么要编码?模型中的预测模型都只能对数值类型进行建模分析(Catboost模型可以直接对类别变量建模),所以需要对离散变量进行编码。编码原则:保证编码后变量的距离可计算且符合原始变量之间的距离度量。编码方法根据是否需要预测变量(也称目标、因变量、标签)分为有监督和无监督编码。无监督编码1、One-hot编码(一位有效编码)不可排序的离散变量编码,例如:性别2、Dummy variable编码(哑变量编码)不可排序的离散变量编码3、Lable编码(标签编码)可排序的离散变量编码,例如:学
聚类分析及Python建模 基本原则:是将有较大相似性的对象归为同一类,而将差异较大(相似性较小)的个体归入不同的类。度量相似性的聚类统计量(指标):距离和相似系数1、距离:欧式距离、马氏距离、兰氏距离2、相似系数:相关系数、夹角余弦用CijC_{ij}Cij表示第iii个变量与第jjj个变量之间的相似系数,∣Cij∣\left\vert C_{ij} \right\vert∣Cij∣满足∣Cij∣⩽1\left\vert C_{ij} \right\vert\leqslant1∣Cij∣⩽1。∣Cij∣\left\v
基于逻辑回归模型的评分卡构建 LR模型对进入模型变量的要求1、变量间不存在较强的线性相关性和多重共线性2、变量具有显著性3、变量具有合理的业务含义,符合业务逻辑第1点,可以使用单变量分析和多变量分析得到一定的约束,但是未必充分;第2点,从系数的P值进行检验;第3点,从系数的符号进行检验。变量的显著性为了获取与目标变量有较高相关性的变量,要求最终入模的变量的系数的P值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:1、该变量本身不显著;2、该变量显著,但是由于有一定的线性相关性或者多重共线