![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式
老乔家大哥
大数据
展开
-
spark入门之wordcount
曾经哥也学过scala,spark。下面为helloworld案例:1. wordcount只需两行代码,其实还可压缩成一行。就完成了词频统计,确实编码效率高啊2. sparksql创建sql的上下文,导包,读文件,生成RDDRDD转化成表,查询条件查询,打印结果现在好像都不用shark了,都改用sparksql了。不过南京这边,hadoop还是重头戏。原创 2014-12-16 14:32:46 · 1123 阅读 · 0 评论 -
Hadoop-2.5.1安装文档
前言本文档针对hadoop2.5.1生态圈的安装,版本选择如下:Jdk_1.7.0_45Zookeeper 3.4.6Hadoop 2.5.1安装顺序:系统环境搭建Hadoop集群安装的软件准备Hadoop集群搭建环境说明每台机器的服务Zookeeper集群: 针对大型分布式系统的可靠协调系统JournalNode集群:存储和管理对hdfs操作日志原创 2014-12-15 15:43:54 · 1650 阅读 · 1 评论 -
hbase-0.98安装文档
去官网下载hbase-0.98.8-hadoop2-bin.tar.gz压缩包 前提是按照上一篇安装好hadoop,zookeeper 1. 将压缩包解压到主节点(一般采用namenode)的路径下2. 配置hbase-site.xml hbase.rootdir hdfs://192.168.2.101:8020/qiaotin原创 2014-12-18 17:38:18 · 1211 阅读 · 1 评论 -
标准linux服务器搭建
一:针对大数据平台的linux如下搭建,为了方便截图,采用的虚拟机,与真实环境有点出入二:步骤如下1. 在vmware中选择加载虚拟光盘iso文件,然后进入安装2. 默认选择第一项 Install or upgrade an existing system,然后如果机器没啥问题,就选择Skip跳过test3.选择Next4. 建议选择English,在最原创 2014-12-22 17:46:52 · 963 阅读 · 0 评论 -
hadoop压缩汇总
一 压缩目的可以减少对集群磁盘空间的占用,减小并行计算数据传输时网络IO二 压缩种类SnappyCodec,GzipCodec,BZip2Codec,Lz4Codec,LzoCodec三 依赖SnappyCodec与LzoCodec需要本地库的支持四 本地库的编译1. Lzo本地库的编译1.1安装lzo-2.06.tar.gz1.2步骤:解压;进原创 2014-12-21 21:39:29 · 2427 阅读 · 1 评论 -
分布式文件系统HDFS名字节点(续)
接着上篇的数据块和数据节点管理,都在blockmanager包下面,FSNamesystem是在server.namenode包下面。知道为什么别的什么fs系列的都放在common工程的fs包下吗,因为FSNamesystem是特定HDFS文件系统的namenode中的内容,common放的是公共的东西,还有一些抽象出来的接口(此接口非彼接口)。1. 几个类第一关系中的INodeFile有原创 2014-12-14 10:26:32 · 1095 阅读 · 0 评论 -
分布式文件系统HDFS名字节点
本节讨论的都在hdfs工程中server.namenode包下名字节点维护两个重要关系:1. 文件系统的文件目录树,文件的数据块索引(文件与数据块的对应列表)2. 数据块与数据节点(datanode)的对应关系一 文件系统目录树1. 主要的类INode是hdfs对文件和目录的抽象,早期版本是保存了文件和目录的名称name这一属性的,在2.X版本中,没有这个属性了。INod原创 2014-12-13 18:50:11 · 1944 阅读 · 0 评论