HDFS
安安DE爸爸
大数据从入门到精通到放弃到入土为安
展开
-
大数据——手把手教你HDFS搭建
第一步:在虚拟机上安装hadoop环境 使用XFTP工具,将hadoop的linux版本压缩包导进linux系统的/opt文件夹下。 第二步:解压hadoop 命令:cd /opt tar -zxvf hadoop******* -C /usr/local/ 解压hadoop压缩包到 /usr/local/ 路径下 解压成功以后看一下local下面的所有文件 第三步:删除解...原创 2019-07-30 11:40:50 · 3052 阅读 · 0 评论 -
大数据——手把手教你数据节点服役和退役
6.5 服役新数据节点 0)需求: 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。 1)环境准备 (1)克隆一台虚拟机 (2)修改ip地址和主机名称 (3)修改xcall和xsync文件,增加新增节点的同步 (4)删除原来HDFS文件系统留存的文件 /opt/module/hadoop-2.7.2/data 2)服役新...原创 2019-08-02 17:19:03 · 531 阅读 · 0 评论 -
linux防火墙打开关闭命令???设置开机不自启防火墙
关闭防火墙:systemctl stop firewalld.service 开启防火墙:systemctl start firewalld.service 关闭开机自启动:systemctl disable firewalld.service 开启开机启动:systemctl enable firewalld.service ...原创 2019-08-03 16:18:48 · 1612 阅读 · 0 评论 -
大数据————HDFS分布式搭建
安装hdfs集群 1、上传hadoop安装包到hdp-01 2、修改配置文件 要点提示 核心配置参数: 1)指定hadoop的默认文件系统为:hdfs 2)指定hdfs的namenode节点为哪台机器 3)指定namenode软件存储元数据的本地目录 4)指定datanode软件存放文件块的本地目录 hadoop的配置文件在:/root/apps/hadoop安装目录/etc/hadoop/ ...原创 2019-07-31 11:01:16 · 244 阅读 · 0 评论 -
大数据——mapreduce实际应用的案例(reduce全部聚合完成后,重新排序)
案例: Log文件: 2017/07/28 qq.com/a 2017/07/28 qq.com/bx 2017/07/28 qq.com/by 2017/07/28 qq.com/by3 2017/07/28 qq.com/news 2017/07/28 sina.com/news/socail 2017/07/28 163.com/ac 2017/07/28 sina.com/news/soc...原创 2019-08-08 10:21:55 · 1083 阅读 · 1 评论 -
大数据——mapreduce在linux系统上的yarn集群中运行
第一步:编辑mapreduce中的java代码(map逻辑和reduce逻辑) 重点是更改提交类中的main方法 /** * 如果要在hadoop集群的某台机器上启动这个job提交客户端的话 * conf里面就不需要指定 fs.defaultFS mapreduce.framework.name * * 因为在集群机器上用 hadoop jar xx.jar cn.edu360.m...原创 2019-08-08 11:10:21 · 165 阅读 · 0 评论 -
大数据——mapreduce分析数据更改源码之分组机制、分区机制、排序机制(map返回值key为对象)
map返回值对象封装: 排序规则的修改和mapreduceIO封装 public class OrderBean implements WritableComparable<OrderBean>{ private String orderId; private String userId; private String pdtName; private float price...原创 2019-08-08 11:29:18 · 172 阅读 · 0 评论 -
大数据——linux安装mysql,并使用hive连接步骤详解及报错解决!!!
https://blog.csdn.net/qq_31725371/article/details/83019856 https://blog.csdn.net/hello_world_qwp/article/details/79551789 https://blog.csdn.net/qq_36168479/article/details/83859060 https://blog.csdn.n...原创 2019-08-08 23:15:10 · 856 阅读 · 1 评论 -
大数据_——利用hive仓库模拟数据进行日活、日新、留存数据的分析统计(详细代码步骤)
假如有一个web系统,每天生成以下日志文件: 2017-09-15号的数据: 192.168.33.6,hunter,2017-09-15 10:30:20,/a 192.168.33.7,hunter,2017-09-15 10:30:26,/b 192.168.33.6,jack,2017-09-15 10:30:27,/a 192.168.33.8,tom,2017-09-15 10:30:...原创 2019-08-14 10:55:17 · 1765 阅读 · 0 评论