- 博客(4)
- 收藏
- 关注
转载 决策树算法
三种停止条件当前结点包含的样本全属于同一类别,无需划分当前属性集为空,或是所有样本在所有属性上的取值相同,无法划分当前结点包含的样本集合为空,不能划分决策树总体流程核心数学概念:熵集合“纯度”,熵值越小,纯度越高(标签越一致)怎么寻找最优划分属性?信息增益本身是对离散型数据来切分的,假设数据取值特别多,比如order_id,它会把每一个order划分到一个分支里,但...
2019-09-17 20:06:00 144
转载 【数据库】Oracle中跨库查询的配置方法
在数据库a想要访问数据库b中的表时,需要先建立连接进行跨库查询1. 登录数据库a,选择Database linke 右键 new2. 填写配置参数一般选择public即可。3. 访问数据 在数据库a中访问b中的数据,只需1 select * from table_name@link_test转载于:https://w...
2019-09-04 10:41:00 197
转载 【风控】非平衡样本问题的定义和解决办法
定义各类别的出现概率不均衡的情况如信用风险中正常用户远多于逾期、违约用户;流失风险中留存用户多于流失用户隐患降低对少类样本的灵敏性。但我们建模就是要找到这少类样本,所以必须对数据加以处理,来提高灵敏性。解决方案1. 过采样对坏的人群提高权重,即复制坏样本,提高坏样本的占比。优点:简单,对数据质量要求不高缺点:容易过拟合2. 欠采样对好的...
2019-09-03 19:44:00 577
转载 数据分析师入门初步
1.书单:A.《Statistics for business and economics》B.《R in action》C.《Data mining:concepts and technologies》D.《数据挖掘导论》E.《Python for data analysis》F.《深入浅出数据分析》G.《web analytics》H.《head fi...
2016-02-13 21:25:00 95
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人