Hadoop
文章平均质量分 88
专注于hadoop的生态圈探索,致力于数据分析、数据挖掘的研究。
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
-
HDFS的常用操作
1、创建目录命令HDFS有一个默认的工作目录/user/$USER,其中$USER是用户的登录用户名。不过目录不会自动建立,需要mkdir建立它命令格式:hadoop fs -mkdir如:在user目录下创建chen目录hadoop fs -mkdir /user/chen注意:Hadoop的mkdir命令会自动创建父目录,类似于带-p的UNIX命令 2、上传文件...原创 2016-12-15 11:50:18 · 654 阅读 · 0 评论 -
如何恢复Hadoop的误删除文件
利用 hadoop fs -rmr (目录名)删除目录时易出现误删除的操作,如何解决:建立回收站!具体操作为:找到配置文件core-site.xml,在其中添加如下信息:<property> <name>fs.trash.interval</name> <value>10080</value> <...转载 2016-12-15 14:24:46 · 6606 阅读 · 0 评论 -
Ambari安装指南
一、准备工作l 基本工具1) 安装epel,epel是一个提供高质量软件包的项目。先检查主机上是否安装:rpm -q epel-release2) 如果没有安装,使用rpm命令安装:rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm (也可手动下载安装包...转载 2016-12-19 16:18:44 · 338 阅读 · 0 评论 -
hadoop集群默认配置和常用配置
获取默认配置配置Hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-defau转载 2017-03-08 17:59:20 · 288 阅读 · 0 评论 -
Hadoop 2.x常用端口及查看方法
一、常用端口组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端转载 2017-03-08 18:00:27 · 6496 阅读 · 0 评论 -
HDFS详解
1. HDFS详解1.1. 分布式文件系统与HDFS1.1.1. 产生背景数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,这样分布式文件系统就应运而生。1.1.2. 定义分布式文件系统(Distributed File System...转载 2018-06-15 11:14:39 · 931 阅读 · 0 评论 -
Hadoop和大数据:60款顶级大数据开源工具
Hadoop和大数据:60款顶级大数据开源工具说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场转载 2016-12-12 10:53:29 · 1750 阅读 · 0 评论 -
详解:大数据分析的学习之路
详解:大数据分析的学习之路以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境 一、大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视转载 2016-12-14 18:02:50 · 1847 阅读 · 0 评论 -
R语言和hadoop相亲相爱
Hadoop的家族如此之强大,为什么还要结合R语言?a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分...转载 2018-04-19 17:04:31 · 298 阅读 · 0 评论 -
Hive,Hbase,HDFS,MapReduce等之间的关系
Hive:Hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。HDFS:HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS...转载 2018-10-24 17:13:11 · 1483 阅读 · 0 评论 -
hadoop大数据工程师、数据开发工程师、数据仓库工程师 面试题目分享
仅限于工作年限1-3年 一、HIVE岗1.order by,distribute by,sortby的区别 点击打开链接2.内部表、外部表的区别及使用场景 点击打开链接3.讲一下hadoop生态圈的组件,说一下你对hadoop的认识程度(需要理解并背下来) 点击打开链接4.join需要注意的地方(hive查询中需要注意的地方及优化方法) 点击打开链接5.视图和表的区别 点...原创 2018-06-08 11:09:07 · 5254 阅读 · 9 评论 -
跟我一起学【Hadoop】之——经典场景分析
1.hive 切片表和历史分区表 查询效率的测试hive分区表陷阱(不load数据到hive,而是put数据到hdfs分区目录下,hive查不到数据)解决方法(msck repair table table_name;):https://yq.aliyun.com/articles/513814答案:分区表是hdfs上以文件夹的形式存在,为了提高查询效率。2.hive脚本定时执行的...原创 2019-09-10 14:47:29 · 1231 阅读 · 0 评论