
数据挖掘
AISeekOnline
* 不要在该努力拼搏的年纪选择安逸 *
展开
-
谱聚类(Spectral Clustering,简称SP)(使用R语言调用包)
谱聚类是在R的“CRAN Task Views”功能中的clusterview下的kernlab包中,因此首先要安装cluster view,安装过程见博文R中的“CRAN Task Views”功能。kernlab的使用手册参见:http://cran.r-project.org/web/packages/kernlab/kernlab.pdf 在R中,调用的代码如下:#载入ke转载 2016-09-05 08:46:14 · 4820 阅读 · 1 评论 -
Spark 实战,第 1 部分: 使用 Scala 语言开发 Spark 应用程序
引言在当前这个信息时代里,大数据所蕴含的价值已经被绝大多数的企业所认知。在 IT 的世界里,往往都是需求驱动技术的发展和革新。Hadoop 在这个大背景下应运而生,它给我们提供了一个存储和处理大数据的良好的解决方案,短短的几年时间里,它已无处不在,事实上它已经成了大数据技术的代名词。然而在人们越来越多的使用 Hadoop 提供的 MapReduce 框架处理大数据的时候,却发现它存在许多天转载 2016-12-25 21:18:00 · 1030 阅读 · 0 评论 -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。转载 2016-12-25 21:20:09 · 587 阅读 · 0 评论 -
Spark 实战,第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析
本文将通过两个例子向读者展示如何使用 Spark SQL/DataFrame API 编写应用程序来对结构化的大数据进行统计分析,并且还会通过分析程序运行日志以及利用 Spark Web Console 向读者介绍 Spark 应用程序运行的基本过程和原理。通过本文的阅读,读者将会对 Spark SQL 模块有较为深入的认识和理解。转载 2016-12-25 21:21:58 · 1596 阅读 · 0 评论 -
Spark 实战,第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析
MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。转载 2016-12-25 21:23:16 · 1967 阅读 · 0 评论 -
Spark 实战,第 5 部分: 使用 ML Pipeline 构建机器学习工作流
本文将通过一个分类预测的机器学习问题向读者展示如何使用 Spark 新的 ML Pipeline 库构建机器学习的工作流。通过本文的阅读,读者将会了解到 ML Pipeline 与 MLlib 相比在设计上的独到和使用上的不同之处,并且会深入理解 ML Pipeline 的基本概念和工作方式,为进一步学习和深入研究打下良好的基础。转载 2016-12-25 21:24:25 · 1247 阅读 · 0 评论 -
Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
本文将通过一个手机短信分类预测的案例向读者介绍文本分析的基本步骤和方法,实现上将使用 Spark ML 的多层感知器分类器及 Word2Vec 文本向量化工具,通过本文的阅读,读者会学习到使用 Spark ML 进行文本分析处理的基本方法和相关工具,为进一步深入研究和学习打下基础。转载 2016-12-25 21:25:28 · 5358 阅读 · 0 评论