想做个有技术的背锅侠-CSDN博客

原创随机森林的基础知识学习

@随机森林的预测模型随机森林的基础知识随机森林的模型分为分类模型和回归模型，但是无论是针对分类预测还是连续性型的预测，其本质上都是一个一个的分类（划分区间）进行预测的思想，对于分类模型来说，落在不同的树节点的就意味着是不同的输出，最后可以预测出不同的分类类型，而对于回归模型来说，也实质是相当于每个节点都是有固定的数值的，因此当样本量远远大于我们的树节点的时候就会出现预测的结果相同的情况。业务...

2019-10-29 15:41:29 614

翻译 hive表关联查询，什么情况下会发生数据倾斜，应该如何解决?

**hive表关联查询，什么情况下会发生数据倾斜，应该如何解决?**倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。解决方案：（1）参数调节：hive.map.aggr = truehive.groupby.skewindata=true有数据倾斜的时候进行负载...

2019-03-27 18:58:39 1593

原创文本分析基础知识

@文本处理的方法当下的一些网络文本分析的难点：1）数据是实时动态变化的，比如一些博客、评论、聊天信息等刷新速度特别快，并且数量庞大2）存在这一些短文本的文本数量较少，包含的有效信息也比较小，但是特征集的维数很高，这就导致了很难从中抽取准确的特征来进行文本分类。3）一些新兴的网络词，比如童鞋、屌丝、v587等，包含的文本噪声信息较多。文本的打标即标识出那些比较重要性的关键词概念：词频-...

2019-03-25 21:46:36 1433