自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python 数据分析笔记

Python 数据分析笔记1.读取csv文件含有中文的时候报错:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb1 in position 0: invalid start bytedatas=pd.read_csv("C:\\Users\\14686\\Desktop\\test2.csv")####没有中文可以执行datas=pd.read_csv("C:\\Users\\14686\\Desktop\\test2.csv",encod

2021-01-18 15:36:28 267

原创 ggplot绘制smbinning结果的数据分布情况

ggplot绘制smbinning结果的数据分布情况遇到的bug解决方式1.用ggplot批量绘制dataframe 变量的分布情况ggplot使用变量是未加引号变量,如果加引号利用ggplot绘图,比如绘制箱线图,图形异常,直接显示一条直线,此时可以使用get函数来得到数据框的变量。例如:p1出现的箱线图异常,p2正常,如果批量跑数据图像,可以使用p3来进行使用。library(smbinning)col_names=colnames(smbsimdf1)result=smbinning(df

2020-10-29 19:01:22 196

原创 hive查看数据库内表名以及满足某一条件的表名

show tables show tables like '*v1*'

2020-10-09 18:43:32 3024

原创 shell 常用语句汇总

1.文件拷贝到另外一个路径下、cp -r /10.125.24.3/yaya.zhao/ /home/yaya.zhao/model_org3chmod 777 /home/datashare/yaya.zhao/yaya.zhao3/

2020-07-16 15:31:57 245

原创 orcale SQL代码--正则表达式使用解析数据

提取满足正则表达式条件的字符串数据#####REASON的取值都是类似于这样的["P99"]需要的数据提取出来是这样的: P99#####正则表达式中的方括号代表满足方括号中任一字段,+代表该正则表达式至少有一个及以上SELECT REASON,regexp_substr(REASON,'[A-Z][0-9]+')FROM mytable_sql;...

2020-06-01 16:58:31 114

原创 R语言分箱

#smbinning分箱 两种方式确定切分点 ;1.根据smbinning自带的ctree算法进行分裂,找出最优分割点,然后计算woe和iv####2.如下计算方式,自己设定切分点,下面是基于数据分布的分位数进行切分per<-as.vector(quantile(traindata$m03,probs=seq(0,1,0.2),na.rm=T)) breaks<-per[2:(length(per)-1)] result_m03=smbinning.custom(df=train

2020-05-20 15:13:47 979

原创 变量筛选之PSI

变量筛选之PSI的计算逻辑:变量稳定性作为入模型变量筛选的其中一个标准,变量的稳定性决定了模型的稳定性,模型分数的跌宕起伏影响公司风控的把控和正确性。群体稳定性指标(population stability index)公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))计算例子:R语言计算代码library(smbinning)PSI_table=data.frame()###numer_namesmydata_d=mydatafor(i in 1:leng

2020-05-14 18:18:33 2899

转载 机器学习模型性能提升--Blending

https://www.jianshu.com/p/4f27814b947c2.https://www.sohu.com/a/252443540_787107

2020-04-09 17:18:42 132

原创 (信贷风控模型一)逻辑回归Python实现

一.逻辑回归的简介逻辑回归属于广义线性回归中的一种。简单除暴的理解逻辑回归中的线性部分:变量X之间的关系可以利用线性回归中的关系使用;非线性部分体现:因变量Y与X之间不能使用线性关系表示。另外区别于线性回归的一个点就是因变量Y是离散变量,二分类标签0,1,;而线性回归的因变量Y是连续型变量。...

2020-01-09 09:31:18 1163

原创 python 模型效果的呈现结果

一.二分类的正确率 or 预测正确的样本个数from sklearn import metricsy_pred=my_model.predict(x_test)#####my_model是经过x_train和y_train以及模型算法进行参数调优的训练模型结果,y_pred是测试数据的预测值metrics.accuracy_score(y_test,y_pred)##模型预测正确率;metr...

2020-01-06 20:32:43 847

原创 python info 函数结果保存为csv格式

// A code blockvar foo = 'bar';# 存储为字符串import iobuf = io.StringIO() # 创建一个StringIO,便于后续在内存中写入strx_train.info(buf=buf) # 写入s_info = buf.getvalue() # 读取type(s_info)#####split_info=s_info.spli...

2019-12-28 19:17:08 906

原创 python 数据分析初步探索

python 数据分析初步探索

2019-12-26 17:39:45 157

submission.csv

Santander客户交易预测 所需要的数据源和数据分析代码,以及模块的注释; 1.导入需要的模块 2.数据导入和数据初步探究 3.数据字段的处理 4.模型开发

2019-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除