大数据
BIGYAOYAO
逗比程序员
展开
-
mahout简介及安装配置
一. mahout简介:Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于Hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。以下为在mahout实现的机器学习算法:算法类算原创 2017-08-25 16:08:22 · 423 阅读 · 0 评论 -
Hadoop集群安装
Hadoop集群安装1、简介Hadoop是一个分布式系统基础架构。Hadoop的框架核心设计是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。2、核心架构MapReduce引擎,该引擎是由JobTrackers和TaskTrackers组成 HDFS就想一个传统的分级文件系统。可以创建、删除、移动原创 2017-08-25 16:05:39 · 244 阅读 · 0 评论 -
HBase教程
HBase教程(注:安装服务器和需连接hbase的服务器的hosts文件的配置 192.168.6 Demo01)Hbase简介HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。是横向扩展的。可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。可以直接或通过HBase的存储HDFS数据。使用HBase在HDFS读取消费/随机访...原创 2019-01-31 11:45:29 · 238 阅读 · 0 评论 -
Spark机器学习
Spark机器学习注:http://blog.csdn.net/u013719780/article/details/51768381 Spark python简介Spark简介:Spark是一个分布式计算框架,旨在简化运行于计算集群上的并行程序的编写。该框架对资源调度,任务的提交/执行和跟踪,节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API...原创 2019-01-31 11:45:17 · 177 阅读 · 0 评论