- 博客(4)
- 资源 (15)
- 收藏
- 关注
转载 用Spark学习FP Tree算法和PrefixSpan算法
转自https://www.cnblogs.com/pinard/p/6340162.html 在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark MLlib...
2018-09-26 22:33:34 506
转载 PrefixSpan算法原理总结
转自http://www.cnblogs.com/pinard/p/6323182.html 前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。1. 项集数据和序列数据 首先我们看看项集数据和序列数据有什么不同,如下图所示...
2018-09-26 22:32:09 496
转载 决策树ID3、CART、C4.5之间的区别
历史回顾:1984年提出的cart,1986年提出的ID3,1993年提出的c4.5理论上总的来说,C4.5是基于ID3优化后产出的算法,主要优化了关于节点分支的计算方式,优化后解决了ID3分支过程中总喜欢偏向取值较多的属性ID3是信息增益分支:而CART一般是GINI系数分支:C4.5一般是信息增益率分支: 工程上总的来说:CART和C4.5之间主要差...
2018-09-16 18:36:30 15147 1
转载 机器学习正负样本选择问题
一、转自https://blog.csdn.net/weixin_38111819/article/details/79214815在机器学习模型构建的时候,我们往往会遇到数据样本正负比例极其不平衡的情况,例如在征信模型或者判断客户购买商品是否使用分期时,往往正负样本比达到10:1,这样会造成许多实际问题。样本不均衡会导致:对比例大的样本造成过拟合,也就是说预测偏向样本数较多的分类。这...
2018-09-02 22:43:12 11559 2
强跟踪滤波程序
2015-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人