![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
Bingmous
世界很大,我很渺小
展开
-
CDH5.16.2离线安装(详细)
环境:jdk,mysqlmysql安装,mysql_secure_installation时间同步原创 2020-12-29 18:22:29 · 1644 阅读 · 0 评论 -
CDH6.2.0离线安装(详细)
环境准备静态IP /etc/hosts 关闭防火墙,禁用,所有节点 修改selinux,vim /etc/selinux/config —> SELINUX=disabled (修改),所有节点 配置免密登录,ssh-keygen -t rsa,然后ssh-copy-id 自己主机,然后将.ssh拷贝到所有节点,这样就实现了互相通信 配置ntp服务,时间同步,所有节点 修改linux swappiness参数,所有节点## 查找包含的所在文件路径grep "vm.swappine原创 2020-12-29 01:02:39 · 5945 阅读 · 3 评论 -
大数据组件安装配置汇总、脚本汇总
克隆虚拟机修改ip地址,主机名原创 2020-09-19 13:57:18 · 501 阅读 · 0 评论 -
电商数仓项目
3 电商数据仓库系统内部表与外部表的区别: 删除内部表时,会把元数据和原始数据全部删除;删除外部表时,只删除元数据,原始数据保留 什么场景创建内部表?外部表 多人使用的表创建外部表 自己用的临时表创建内部表 ...原创 2020-09-20 19:44:06 · 425 阅读 · 0 评论 -
Hadoop配置文件汇总
共8个配置文件hadoop-env.sh yarn-env.sh mapred-env.sh core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves ssh免密登录修改JAVA_HOME为绝对路径hadoop-env.sh yarn-env.sh mapred-env.shcore-site.xml(NameNode地址,Hadoop运行产生文件存储地址)core-cite.xml # 设置原创 2020-08-02 08:54:36 · 637 阅读 · 0 评论 -
Hadoop - HA学习笔记
Hadoop HA概述工作要点通过双NameNode消除单点故障 元数据管理方式需要改变:内存中各自保存一份元数据;Edits 日志只有 Active 状态的NameNode节点可以做写操作;两个 NameNode都可以读取 Edits;共享的Edits放在一个共享存储中管理(qjournal 和 NFS 两个主流实现); 需要一个状态管理功能模块:实现了一个zkfailover ,常驻在每一个 NameNode 所在的节点,每一个 zkfailover 负责监 控自己所在NameNode节原创 2020-07-17 19:49:09 · 139 阅读 · 0 评论 -
Zookeeper学习笔记
第1章 ZooKeeper入门Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的Apache 项目。ZooKeeper=文件系统+通知机制第2章 ZooKeeper安装安装jdk 解压ZooKeeper 配置修改: 修改/opt/module/zookeeper-3.4.10/conf 这个路径下的zoo_sample.cfg 修改为zoo.cfg 打开zoo.cfg 文件,修改dataDir 路径dataDir=/opt/module/zookeeper-3.4.10原创 2020-07-16 10:46:56 · 110 阅读 · 0 评论 -
vmware启动后虚拟机无法联网
搜索services.msc打开服务确认VMware NAT service和VMware DHCP service服务处于启动状态;开启自动启动,下次就会自动联网了原创 2020-07-15 14:20:50 · 177 阅读 · 0 评论 -
hdfs刷新节点失败,未显示Refresh nodes successful
使用命令:hdfs dfsadmin -refreshNodes没有显示Refresh nodes successful,而是:refreshNodes: /opt/module/hadoop-2.7.2/etc/hadoop/dfs.hosts.exclude原因:hdfs-site.xml中dfs.hosts.exclude配置路径有换行错误# 错误!<property><name>dfs.hosts.exclude</name><value原创 2020-07-06 23:19:39 · 656 阅读 · 0 评论 -
hadoop 无法访问50070
windowshosts文件:C:\Windows\System32\drivers\etc centos防火墙 hadoop core-site.xml配置文件中的namenode地址 (yarn-site.xml RM地址)原创 2020-07-06 12:07:56 · 198 阅读 · 0 评论 -
Hadoop2.7.2源码编译过程
准备工作CentOS可以联网,验证:ping www.baidu.com 是畅通的 jar 包准备(hadoop 源码、JDK8、maven、ant 、protobuf) (1)hadoop-2.7.2-src.tar.gz (2)jdk-8u144-linux-x64.tar.gz (3)apache-ant-1.9.9-bin.tar.gz(build 工具,打包用的) (4)apache-maven-3.0.5-bin.tar.gz (5)protobuf-2.5.0.tar.gz(序原创 2020-07-04 10:39:46 · 285 阅读 · 0 评论 -
Hadoop - 入门学习笔记(详细)
Hadoop 运行环境搭建(开发重点)1 虚拟机环境准备:vmware,centos7 创建虚拟机,安装centos7 虚拟机克隆原创 2020-07-04 13:01:07 · 347 阅读 · 0 评论 -
Hadoop - MapReduce学习笔记(详细)
第1章 MapReduce概述是一个分布式运算程序的编程框架 mapreduce进程,一个完整的mapreduce有三类实例 MrAppMaster,负责整个程序的过程调度及状态协调 MapTask,负责map阶段的数据处理 ReduceTask,负责reduce阶段的数据处理 编程规范 mapper阶段 reducer阶段 driver阶段 第2章 hadoo...原创 2020-07-15 10:00:09 · 310 阅读 · 0 评论 -
Hadoop - HDFS学习笔记(详细)
第一章 HDFS概述hdfs背景意义 hdfs是一个分布式文件系统 使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。 优缺点 高容错性,适合处理大数据(数据PB级别,百万规模文件),可部署在廉价机器上 不适合低时延数据访问,无法高效存储大量小文件,不支持并发写入、随机修改(仅追加) hdfs组成架构 namenode,管理hdfs命名空间,配置副本策略,管...原创 2020-07-07 10:58:10 · 397 阅读 · 0 评论 -
ubuntu 18.04安装hadoop 2.9.2
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:$JAVA_HOME/bin"export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport JAVA_HOME=/java/jdk1.8.0_...原创 2020-03-27 23:01:08 · 135 阅读 · 0 评论 -
win7下安装Hadoop
1 下载准备下载hadoop,官网用一个快一点的镜像,使用迅雷加速下载,二进制格式,解压目录:E:\hadoop\hadoop-2.9.2 下载winutils,这个是别人编译好的hadoop的windows版本二进制文件,选择对应版本覆盖安装目录下对应目录 下载jdk2 配置环境变量添加环境变量HADOOP_HOME,E:\hadoop\hadoop-2.9.2;JAVA_HOME...原创 2020-03-25 12:44:36 · 267 阅读 · 0 评论 -
Hadoop权威指南 - 学习笔记
Hadoop宏观介绍相对于其他系统的优势关系型数据库管理系统为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,如果使用Hadoop,更好的利用传输速率,读取花费的时间远远小于传输的时间,提高分析效率。Hadoop发展历史起源于开源...原创 2020-03-26 12:19:10 · 529 阅读 · 0 评论