数据分析
想做个有技术的背锅侠
喜欢也没用,没用也喜欢
展开
-
随机森林的基础知识学习
@随机森林的预测模型 随机森林的基础知识 随机森林的模型分为分类模型和回归模型,但是无论是针对分类预测还是连续性型的预测,其本质上都是一个一个的分类(划分区间)进行预测的思想,对于分类模型来说,落在不同的树节点的就意味着是不同的输出,最后可以预测出不同的分类类型,而对于回归模型来说,也实质是相当于每个节点都是有固定的数值的,因此当样本量远远大于我们的树节点的时候就会出现预测的结果相同的情况。 业务...原创 2019-10-29 15:41:29 · 575 阅读 · 0 评论 -
hive表关联查询,什么情况下会发生数据倾斜,应该如何解决?
** hive表关联查询,什么情况下会发生数据倾斜,应该如何解决? ** 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。 解决方案: (1)参数调节: hive.map.aggr = true hive.groupby.skewindata=true 有数据倾斜的时候进行负载...翻译 2019-03-27 18:58:39 · 1570 阅读 · 0 评论