- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 【机器学习实战-python3】大数据与MapReduce
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、MapReduce:分布式计算的框架 MapReduce 优点:可在短时间内完成大量工作。 缺点:算法必须经过重写,需要对系统工程有一定的理解。 适用数据类型:数值型和标称型数据。Google公司的Jeffrey Dean和Sanjay Ghemawat在2004年的一篇论
2017-05-15 17:39:32 3520 1
原创 【机器学习实战-python3】利用PCA简化数据
本章是涉及降维主题的两章中的第一章。在降维中,我们对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。 本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、降维技术概述 在已标注与未标注的数据上都有降维技术。这里我们将主要关注未标注数据上的降维技术,该技术同时也可以应用于已标注的数据。大量的数据往往拥有超出显示能力的更多特征。数据显
2017-05-14 21:58:55 3346 1
原创 【机器学习实战-python3】利用SVD简化数据
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、开篇:简述SVD应用 利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之,SVD是一种从大量数据中提取主要关键数据的方法。下面介绍几种应用场景: 1、隐性语义索引 最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索
2017-05-14 09:56:08 5178 5
原创 【机器学习实战-python3】使用FP-growth算法来高效 发现频繁项集
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action本章会在上一章讨论话题的基础上进行扩展,将给出一个非常好的频繁项集发现算法。该算法称作FP-growth,它比上一章讨论的Apriori算法要快。它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在
2017-05-05 10:30:44 9557 1
原创 【机器学习实战-python3】使用Apriori算法进行关联 分析
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action一、背景 从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。 关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项 集或者关联规则。频繁项集(freq
2017-05-03 15:46:55 34544 20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人