大数据
siyan985
这个作者很懒,什么都没留下…
展开
-
FP-growth算法原理解析
FP-growth算法(FP, Frequent Pattern)FP-growth算法只需要对数据库进行两次扫描。而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定的模式是否频繁,因此FP-growth算法要比Apriori算法快。FP-growth算法只需要扫描两次数据集,第一遍对所有数据元素出现次数进行计数,第二遍只需考虑那些频繁的元素。发现频繁项集的基本过程分为两步,构建FP树和从FP树中挖掘频繁项集。简单来说,算法的目的就是在多个出现的数据项中找到出现次数最多的数据项或者原创 2020-10-15 16:33:26 · 6009 阅读 · 1 评论 -
基于Docker的Hadoop完全分布式安装
之前安装Hadoop是用VMWare创建虚拟机,然后安装伪分布式,因为虚拟机太慢,太卡,实在没有玩下去的心情了,现在想到Docker可以实现虚拟化,看看能不能安装Hadoop,网上查了查,果然可以,并且博客还不少,但都是有些小问题,并且过程不详细,没有问题解决的答案,在我踩了好多坑后,现在记录一下我在基于Docker的Hadoop完全分布式安装时的过程和遇到的问题,希望能帮到后来的童鞋.###首...原创 2018-09-17 00:36:59 · 15589 阅读 · 9 评论 -
基于docker的Hadoop完全分布式开发环境使用和配置
之前基于docker搭建了Hadoop完全分布式架构,现在来试试如何使用.基于docker搭建了Hadoop完全分布式架构Hadoop简单介绍可能有的人目前为止对hadoop还不是太了解,首先进行简单的介绍.大白话,简单来说,hadoop就是个分布式文件系统.要了解的有三部分,1.hdfs(分布式文件系统),2.mapreduce(面向大数据并行处理的计算模型、框架和平台),3.yarn...原创 2018-09-26 11:08:25 · 1751 阅读 · 0 评论 -
hadoop伪分布式,完全分布式,高可用安装配置
hadoop的安装有单机版本,伪分布式,完全分布式,个人学习过程中建议使用伪分布式版本,也可以用完全分布式,这样更符合实际应用环境,但你需要考虑个人的机子的配置.zookeeper配置yarn介绍原创 2019-04-30 15:31:24 · 1004 阅读 · 0 评论 -
Spark单机安装
spark安装,Spark支持运行在Yarn或者Mesos上,同时也提供自己的资源管理系统,即Standalone模式.为了方便本地开发,Spark提供了Local运行模式.不同的环境的开发代码是相同的,只是在提交到不同的调度系统时参数不同而已.原创 2019-04-30 16:28:54 · 408 阅读 · 0 评论 -
sqoop安装和简单使用
sqoop安装和简单使用原创 2019-04-30 18:08:52 · 286 阅读 · 0 评论 -
hive安装与配置
hive安装原创 2019-04-30 18:26:57 · 378 阅读 · 0 评论 -
hbase安装与配置
hbase安装,hbase是基于hdfs的面向列的分布式数据库.源于google的BigTable论文.原创 2019-04-30 19:42:01 · 431 阅读 · 0 评论