数据清洗
suhao0911
这个作者很懒,什么都没留下…
展开
-
python的日期时间格式处理方法汇总
在处理数据和清洗数据时会遇到各种情况下的时间格式,有时会因处理时间格式花费较多的时间,这里对python最终较为常用的时间格式整理出来。一、常用的日期时间模块大部分情况下,我们使用的time、datetime,pandas三个包基本上就能完成绝大多数的时间格式问题。这里主要按使用场景分类,不按包分类。python中时间日期格式化符号:%y 两位数的年份表示(00-99)%Y 四位数的年份...原创 2019-10-18 16:53:05 · 3669 阅读 · 0 评论 -
hive中日期格式转换
hive中时间日期处理日期时间格式大致分成时间戳和日期时间格式互转,字符串转化成日期时间格式,日期格式之间的转化一、时间戳和日期互转1、unix_timestamp函数,日期转时间戳当函数参数为空时,返回当前时间戳。select unix_timestamp() ---1571282494不输入时间格式,默认’yyyy-MM-dd HH:mm:ss’格式select un...原创 2019-10-17 12:06:56 · 11693 阅读 · 0 评论 -
数据预处理方法
数据处理的方法在数据分析建模和数据挖掘中,大部分的时间主要都花费在数据处理和分析中。数据的质量直接影响到模型的准确度。下面主要针对数据预处理方面入手整理一些常用的方法。数据预处理分为四步,数据清理、数据变换和变量筛选。一、数据清理主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理;分别是缺失值(missing value),异常值(离群点),去重处理(Duplicate ...原创 2019-03-10 01:30:54 · 5913 阅读 · 0 评论 -
评分卡分箱单调性
评分卡分箱单调性一、平分卡的使用场景和要求在信贷场景中,评分卡是以分数的形式来衡量风险几率的一种手段对未来一段时间内违约/逾期/失联概率的预测,通常评分越高越安全根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡。由于评分卡在业务场景中有着很好的可解释性和区分度,在互联网金融风控中作用巨大。评分卡的一般要求有:(1)稳定性当总体逾期/违约概率不变,分数的分步也应该没有改变...原创 2019-03-14 17:02:35 · 3493 阅读 · 0 评论