anhe5740-CSDN博客

转载 Apache Spark1.1.0部署与开发环境搭建

　　Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同，Spark并不局限于编写map和reduce两个方法，其提供了更为强大的内存计算(in-memory computing)模型，使得用户可以通过编程将数据读取到集群的内存当中，并且可以方便用户快速地重复查询，非常适合用于实现机器学...

2019-09-29 07:52:56 102

转载 Mahout源码分析：并行化FP-Growth算法

　　FP-Growth是一种常被用来进行关联分析，挖掘频繁项的算法。与Aprior算法相比，FP-Growth算法采用前缀树的形式来表征数据，减少了扫描事务数据库的次数，通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上，面对大数据量时，FP-Growth算法生成的FP-tree非常大，无法放入内存，挖掘到的频繁项也可能有指数多个。本文将分析如何并行化...

2019-09-29 07:52:52 287

转载关联分析：FP-Growth算法

　　关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系，分析顾客的购买习惯。比如，67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品频繁地被顾客同时购买，可以帮助零售商制定营销策略。关联分析也可以应用于其他领域，如生物信息...

2019-09-29 07:52:51 683

转载分类问题中的“维数灾难”

　　在看机器学习的论文时，经常会看到有作者提到“curse of dimensionality”，中文译为“维数灾难”，这到底是一个什么样的“灾难”？本文将通过一个例子来介绍这令人讨厌的“curse of dimensionality”以及它在分类问题中的重要性。　　假设现在有一组照片，每一张照片里有一只猫或者一条狗。我们希望设计一个分类器可以自动地将照片中的动物辨别开来。为了实现这...

2019-09-29 07:52:48 202

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Apache Spark1.1.0部署与开发环境搭建

转载 Mahout源码分析：并行化FP-Growth算法

转载 关联分析：FP-Growth算法

转载 分类问题中的“维数灾难”

空空如也

空空如也

转载关联分析：FP-Growth算法

转载分类问题中的“维数灾难”