2018年09月_songhao22

10月 09月 06月 03月 02月 01月

转载用Spark学习FP Tree算法和PrefixSpan算法

　转自https://www.cnblogs.com/pinard/p/6340162.html　　在FP Tree算法原理总结和PrefixSpan算法原理总结中，我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结，这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库，而Spark MLlib有，本文的使用以Spark MLlib...

2018-09-26 22:33:34 506

转载 PrefixSpan算法原理总结

转自http://www.cnblogs.com/pinard/p/6323182.html　前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法，但是它是挖掘频繁序列模式的，因此要解决的问题目标稍有不同。1. 项集数据和序列数据　　　　首先我们看看项集数据和序列数据有什么不同，如下图所示...

2018-09-26 22:32:09 496

转载决策树ID3、CART、C4.5之间的区别

历史回顾：1984年提出的cart，1986年提出的ID3，1993年提出的c4.5理论上总的来说，C4.5是基于ID3优化后产出的算法，主要优化了关于节点分支的计算方式，优化后解决了ID3分支过程中总喜欢偏向取值较多的属性ID3是信息增益分支：而CART一般是GINI系数分支：C4.5一般是信息增益率分支：工程上总的来说：CART和C4.5之间主要差...

2018-09-16 18:36:30 15147 1

转载机器学习正负样本选择问题

一、转自https://blog.csdn.net/weixin_38111819/article/details/79214815在机器学习模型构建的时候，我们往往会遇到数据样本正负比例极其不平衡的情况，例如在征信模型或者判断客户购买商品是否使用分期时，往往正负样本比达到10:1，这样会造成许多实际问题。样本不均衡会导致：对比例大的样本造成过拟合，也就是说预测偏向样本数较多的分类。这...

2018-09-02 22:43:12 11559 2