- 博客(5)
- 收藏
- 关注
转载 算法杂货铺——分类算法之决策树(Decision tree)
3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。
2014-07-31 10:52:26 1201
转载 深入浅出K-Means算法
摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左
2014-07-30 16:18:30 606
转载 Protocol Buffer Basics: Java
This tutorial provides a basic Java programmer's introduction to working with protocol buffers. By walking through creating a simple example application, it shows you how toDefine message format
2014-07-29 17:06:14 981
转载 How-to: Use HBase Bulk Loading, and Why
.8.3. Bulk Load ArchitectureThe HBase bulk load process consists of two main steps.9.8.3.1. Preparing data via a MapReduce jobThe first step of a bulk load is to generate
2014-07-23 15:08:36 1568
转载 FP-Tree算法的实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:
2014-07-21 10:10:50 1099
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人