人行数据处理总结

1.去重操作
#重复原因:系统跑批出错导致同一busi_no对应不同的批次trans_seq;
#去重逻辑:对每一Unique busi_no选择最新的trans_seq;
#操作方法:proc sort by busi_no descending trans_seq run; proc sort nodupkey by busi_no;
2.分布查询处理
#关于客户画像部分,主要看各种分箱比例,python中可以用cut操作,sas中使用format,最好在开始处理数据之前就讲format定好;
#format tip: 像缴款评等特殊码值,截取后在format中应用invalue e.g. ‘N1’=‘01.N1’;
3.特别大的表优化取数
#某些特别大的表取数时,可根据busi_no截取日期,在where中进行限制,从而提高读取速度;
4.sql select
#使用left join连接表,select字段要清楚 e.g. a.* b.*;
5.男女判断逻辑
#取身份证号第十七位数字,使用mod除2判断整除余数是否为0;
6.分隔符号的连接的字段码值取出
#对于由分隔符号连接的字段码值,一个字段中一行中存在多个连接的码值;
#按照分隔符号取码值tip:scan;
#do while 循环取出;
7.结果汇总表加工
#先构建变量名和分类维度表
e.g.
n var type#delimiter=‘,’
1,highet,human
2.weight, pig
3,lenth, chicken
#建立宏函数#用do循环批次取出每一行观测值#call symputx将变量塞入宏变量中
#对批次取出的观测值,使用sql语句取出并groupby;
#最后对每一批次的sql取出表用proc append进行连接#方便在excel中拉出透视表;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值