【大数据】Hadoop
【大数据】Hadoop
北京小辉
余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据、云数据、用户画像、推荐算法。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。
展开
-
Hadoop 2.8.5 Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/user:root问题解决
目录一、问题二、分析三、解决方案两种第一种方案第二种方案四、展示一、问题Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user":root:supergroup:drwx-wx-wx二、分析 我在浏览器查看目录和删除目录及文件,为什么会是d...原创 2020-01-12 17:54:38 · 8924 阅读 · 1 评论 -
Mac配置单机版:Hadoop和Spark环境
目录1、需求2、软件3、参考文档和配置下载4、配置过程1)环境变量2)Zookeeper配置文件解说3)hadoop配置文件解说4)Hive配置文件解说5)Hbase配置文件解说6)Spark和Scala安装5、界面展示——————————————————————————————1、需求搭建..原创 2018-04-27 12:58:10 · 2813 阅读 · 0 评论 -
HDFS常用命令
选项名称 使用格式 含义-ls -ls <路径> 查看指定路径的当前目录结构-lsr -lsr <路径> 递归查看指定路径的目录结构-du -du <路径> 统计目录下个文件大小-dus -dus <路径> 汇总统计目录下文件(夹)大原创 2017-07-26 12:43:16 · 1315 阅读 · 0 评论 -
Hadoop基本操作命令
假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动Hadoop1.进入HADOOP_HOME目录。2.执行sh bin/start-all.sh关闭Hadoop1.进入HADOOP_HOME目录。2.执行sh bin/stop-all.sh文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的原创 2016-06-09 19:13:59 · 924 阅读 · 0 评论 -
HDFS原理分析(一)
DFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的文件。2、最高效的访问模式是 一次写入、多次读取(流式数据访问)HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分原创 2016-03-14 23:00:43 · 1213 阅读 · 0 评论 -
HDFS命令行文件操作
Hadoop文件操作命令形式为hadoop fs -cmd 说明:cmd是具体的文件操作命令,是一组数目可变的参数。Hadoop最常用的文件操作命令,包括添加文件和目录、获取文件、删除文件等。1 添加文件和目录HDFS有一个默认工作目录/usr/$USER,其中$USER是你的登录用户名,作者的用户名是root。该目录不能自动创建,需要执行mkdir命令创建原创 2016-04-19 15:06:56 · 935 阅读 · 0 评论 -
HDFS的API
package cn.yc.com.util;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import o原创 2016-05-23 22:16:15 · 1330 阅读 · 2 评论 -
hadoop Apache版本的启动命令
start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstart-dfs.sh 启动Ha原创 2016-05-08 21:26:21 · 1120 阅读 · 0 评论 -
Hadoop机器运行一段时间后hadoop不能stop-all.sh的问题
显示报错no tasktracker to stop ,no datanode to stop问 题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux默认会每 隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop- hado原创 2016-05-26 11:40:24 · 2312 阅读 · 0 评论 -
Apache,CDH和Cloudera三者有什么区别
Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于,Hortonworks的产品均是百分之百开源。Cloudera有免费版和企业版,企业版只有试用期。apache hadoop则是原生的hadoop。目前在中国流行的是apache hadoop,Cloudera CDH,当然Hortonworks也有用的Apache Amb原创 2016-06-02 21:06:25 · 8761 阅读 · 0 评论