大数据hadoop
rainyrainbow
深挖一门技术-云计算与大数据
展开
-
Hadoop生态圈以及hadoop伪分布式安装
大数据学习历程HADOOP生态圈简介HadoopHDFS分布式存储系统MapReduce分布式计算YARN分布式资源管理Spark 基于内存计算stormHive/pig 基于mapreduce(离线计算)Oozie 作业流调度系统zookeeper分布式协调服务Hbase 分布式数据库sqoop 数据库Mahouthadoop实验hadoop伪分布式安装hadoop开发插件安装最近在参加大...原创 2018-11-18 20:15:33 · 383 阅读 · 0 评论 -
hadoop安装流程总结以及常用命令
hadoop安装流程主要步骤1.java环境配置因为hadoop底层是java写的,所以必须配置java环境2.配置SSH免密登录3.hadoop环境配置hadoop-env.sh中引入java4.hadoop组件配置信息HDFS配置core-site.xmlhdfs-site.xmlMapReduce配置mapred-site.xmlyarn-site.xml启动h...原创 2018-11-18 21:17:32 · 1006 阅读 · 0 评论 -
Hadoop HDFS原理---分布式文件系统
HDFS工作原理NameNode和Sencondary NameNode节点通过HTTP GET(N->S)和POST(S->N)发送和接受数据体系结构,主从(master/slave)存储原理:冗余数据保存(多副本)HDFS 实现目标HDFS 相关概念块默认128MNameNodeFsImagenamenode节点启动时,会将fsimage中的...转载 2018-11-19 10:52:10 · 179 阅读 · 0 评论 -
hadoop常见操作以及简单的Hadoop javaAPI实现
原创 2018-11-24 19:42:45 · 21621 阅读 · 4 评论 -
hadoop之mapreduce实例——求平均值、去重
求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作商即可。具体原理如下图所示:类似于写一个正常的hadoop javaAPI 操作,过程依次是启...原创 2018-11-24 20:13:11 · 5339 阅读 · 0 评论 -
Hadoop生态之数据库HBase的本地安装、基本操作以及Hbase JAVA API
What?HbaseHBase是一个分布式的,面向列的开源数据库,对应于Goole Bigtable,适合于非结构化数据存储的数据库。HBase基于列,在需要实时读写、随机访问超大规模数据集时,可以使用HBase。上图描述Hadoop Ecosystem中的各层结构。其中,HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。Hadoop MapR...原创 2018-11-26 11:04:56 · 778 阅读 · 0 评论 -
Hadoop生态之 Spark, Pyspark
SparkSpark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法安装目前Apache Spark主要支持三种分布式部署方式:分别是standalone、Spark on mesos和spark on YARN,其中,第一种类似于MapReduce ...原创 2018-11-30 19:13:17 · 945 阅读 · 0 评论 -
PySpark
PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。系统环境Linux Ubuntu 14.04jdk-7u75-linux-x64hadoop-2.6.0-cdh5.4.5scala-2.10.4spark-1.6.0-bin-hadoop2.6python3.4PyCharm1.在Pycha...2018-11-30 19:14:14 · 432 阅读 · 0 评论