自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 特征的设计模式

特征的设计模式分数据源通讯录通话记录profile设备信息…分类型社交类型:父母、配偶、亲属、朋友、陌生人手机型号:安卓、苹果订单:申请通过、申请未通过、逾期、未逾期…统计总和、总次数、占比、最大值、最小值、均值、中位数、分位数描述例如:工作所在省市、户籍所在省市、年龄、性别、职业; 手机的品牌、手机的型号、是否root、手机号的归属地时间窗口:...

2019-12-31 20:27:43 233

原创 ks和auc的原理

ks和auc的原理将预测概率值排序将按照预测概率值排序后的样本进行K等分分别计算每个桶内样本的累计TPR和FPR,即首先计算第一个分桶中TPR和FPR,计算第二个分桶的TPR和FPR后和第一个分桶的结果进行累计将每个分桶的累计TPR和FPR分别作为纵坐标和横坐标,画出roc曲线计算roc曲线的面积即为auc计算每个分桶内累计TPR和FPR的差值,取最大差值即为KS代码:impo...

2019-12-31 19:15:13 1335

原创 互联金融风控-多头借贷

互联金融风控-多头借贷多头借贷是指一个借贷用户同时在多家借贷平台上有借贷行为,那么多头借贷对现金贷风控的影响是什么?首先在市场比较平稳的情况下,用户的多头借贷行为意味着该用户具备从别的平台成功下款的能力,在模型中的表现就是一个用户的多头借贷越多,该用户的还款能力甚至越强。但是在市场比较波动,比如在金融公司出现大规模暴雷的情况下,多头借贷的用户从下一家获取到贷款的概率会降低,该用户破产...

2019-12-31 16:04:48 819

原创 pandas的cut和qcut方法的区别

pandas的cut()和qcut()的区别相同点:都是对连续性数据通过分桶实现离散化不同点:cut():先划分成等宽的桶,然后将数据填充到所属的桶中,导致每个桶中数据的个数有多有少;​ 而qcut():首先对数据进行排序,然后等宽分桶,每个桶内的数据量一样多代码如下:import numpy as npimport pandas as pdfrom pandas ...

2019-12-27 15:43:32 791

原创 pandas map、apply和applymap的区别

pandas 中 map、apply和applymap的区别pandas中只有Series数组有map(),DataFrame没有map()方法map()的输入是Series数组中的每个元素在实际应用中一般用来做条件判断pandas的Series和DataFrame都有apply()方法,区别在于对于DataFrame apply()的输入是一个数组,当axis=1时,是行数组;当...

2019-12-27 15:41:02 1005

原创 numpy和pandas编程技巧

numpy和pandas编程技巧文章目录value_counts()统计一个series中的值出现的次数将np的多维数组平铺成一维:ravel()和flatten()查看特征的基本统计信息describe():字符串处理df.strdataFrame分组并统计分组后的结果groupby()多条件筛选 &df排序sort_values()np数组拼接 ---> np.concate...

2019-12-26 15:56:05 206

原创 python LR 数据挖掘代码

不同的特征处理方式对LR二分类结果的影响在前面https://blog.csdn.net/u010569893/article/details/93380700 讲到了特征工程的概念和常见的特征工程方法,那么今天将对比下不同的特征处理方式对LR模型分类结果的影响结论:对于LR分类算法而言,对特征进行woe编码的效果要优于仅仅对特征进行归一化处理的效果auc归一化woe编码...

2019-12-25 15:43:03 446

原创 lr使用grid_search来调参

目的:使用sklearn的网格搜索grid_search来计算最好的LR模型参数,这样省去了人工调试参数的工作,而且算法会帮你计算出最好的模型参数。另外,xgboost的网格搜索代码请参考:https://blog.csdn.net/u010569893/article/details/91887394代码import numpy as npfrom numpy import loadtx...

2019-12-25 11:11:31 1194

原创 python编程技巧2019-12-24

北京时间和世界时间早8个小时,如何转换呢?UTC时间:世界协调时间(UTC)是世界上不同国家用来调节时钟和时间的主要时间标准。:也就是零时区的时间CST时间:中央标准时间            Central Standard Time (USA) UT-6:00(美国cst时间:零区时减6个小时)Central Stand...

2019-12-24 19:56:36 109

原创 pandas编程技巧3

pandas编程技巧3np.nan_to_num(x)使用0替代数组x中的nan,使用有限的数字代替inf元素使用背景:在是使用numpy数组时,常常会出现nan或者inf的元素,可能会造成数值计算的一些错误。可以使用numpy库的函数nan_to_num(),使得nan和inf能够最简单地转换成相应的数值。from pandas import DataFrame, Seriesim...

2019-12-24 15:07:12 156

原创 pandas编程技巧2

pandas 的axis=1和0的区别axis = 1 沿着横轴的方向(列操作,逐列)axis = 0 沿着纵轴的方向 (行操作,逐行)from pandas import DataFrame, Seriesimport pandas as pddf = DataFrame([ {"order_id":1001, "name":"wangwu"}, {"order_...

2019-12-23 20:14:17 151

原创 pandas编程技巧

pandas编程技巧drop_duplicates 删除重复行from pandas import DataFrame, Seriesinfo = [ {"order_id":1001, "name":"wangwu"}, {"order_id":1002, "name":"zhangsan"}, {"order_id":1003, "name":"lisi"}...

2019-12-23 20:12:15 193

在线考试系统

此软件是一个在线考试系统,用asp语言编写,数据库用的是access,该软件可以自动生成试卷,在线考试,自动阅卷,信息管理等功能。

2013-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除