![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
安安DE爸爸
大数据从入门到精通到放弃到入土为安
展开
-
大数据——手把手分布式yarn集群安装
yarn是一个分布式程序的运行调度平台yarn中有两大核心角色:1、Resource Manager接受用户提交的分布式计算程序,并为其划分资源管理、监控各个Node Manager上的资源情况,以便于均衡负载2、Node Manager管理它所在机器的运算资源(cpu + 内存)负责接受Resource Manager分配的任务,创建容器、回收资源2.2.YARN的安装node...原创 2019-08-03 10:13:51 · 382 阅读 · 0 评论 -
大数据_——利用hive仓库模拟数据进行日活、日新、留存数据的分析统计(详细代码步骤)
假如有一个web系统,每天生成以下日志文件:2017-09-15号的数据:192.168.33.6,hunter,2017-09-15 10:30:20,/a192.168.33.7,hunter,2017-09-15 10:30:26,/b192.168.33.6,jack,2017-09-15 10:30:27,/a192.168.33.8,tom,2017-09-15 10:30:...原创 2019-08-14 10:55:17 · 1778 阅读 · 0 评论 -
大数据——linux安装mysql,并使用hive连接步骤详解及报错解决!!!
https://blog.csdn.net/qq_31725371/article/details/83019856https://blog.csdn.net/hello_world_qwp/article/details/79551789https://blog.csdn.net/qq_36168479/article/details/83859060https://blog.csdn.n...原创 2019-08-08 23:15:10 · 872 阅读 · 1 评论 -
mapreduce之数据切片
注:本文中的两段代码都是以内部类的方式进行编写的需求:需求:有大量的文本文档,如下所示:a. txthello tomhello jimhello kittyhello roseb. txthello jerryhello jimhello kittyhello jackc. txthello jerryhello javahello c++hello c++...原创 2019-08-08 11:52:26 · 615 阅读 · 0 评论 -
大数据——mapreduce打散倾斜方式解决reduce task的负载均衡
打散倾斜原理:1、获取NumReduceTasks的个数,并将其随机2、在map结果的返回值中,将随机数拼接到key上。3、得出的结果再重新进行mapreduce计算,将后缀切掉,重新聚合。第一次mapreduce:public class SkewWordcount { public static class SkewWordcountMapper extends Mapper&l...原创 2019-08-08 11:41:09 · 417 阅读 · 0 评论 -
大数据——mapreduce分析数据更改源码之分组机制、分区机制、排序机制(map返回值key为对象)
map返回值对象封装:排序规则的修改和mapreduceIO封装public class OrderBean implements WritableComparable<OrderBean>{ private String orderId; private String userId; private String pdtName; private float price...原创 2019-08-08 11:29:18 · 172 阅读 · 0 评论 -
大数据——mapreduce在linux系统上的yarn集群中运行
第一步:编辑mapreduce中的java代码(map逻辑和reduce逻辑)重点是更改提交类中的main方法/** * 如果要在hadoop集群的某台机器上启动这个job提交客户端的话 * conf里面就不需要指定 fs.defaultFS mapreduce.framework.name * * 因为在集群机器上用 hadoop jar xx.jar cn.edu360.m...原创 2019-08-08 11:10:21 · 167 阅读 · 0 评论 -
用java程序进行对linux上的zookeeper的增删改查
一:先构造一个连接zookeeper的客户端对象 ZooKeeper zk = null;//表示在任意使用@Test注解标注的public void方法执行之前执行 @Before public void init() throws Exception{ // 构造一个连接zookeeper的客户端对象 zk = new ZooKeeper("hdp-01:2181,hdp-...原创 2019-08-08 11:03:58 · 171 阅读 · 0 评论 -
zookeeper在linux上的集群搭建
zookeeper在linux上的集群搭建解压zookeeper配置zookeeper解压zookeeper1.用stfp等文件传输软件将linux版本的zookeeper传输到linux中2.在文件中进行解压命令为:tar -zxvf 文件名(路径+文件名) -C 解压路径3. 可以将解压后的一些无用文件删除:doc src配置zookeeper1.进入conf这个文件中,复制zo...原创 2019-08-08 10:22:44 · 92 阅读 · 0 评论 -
大数据——mapreduce实际应用的案例(reduce全部聚合完成后,重新排序)
案例:Log文件:2017/07/28 qq.com/a2017/07/28 qq.com/bx2017/07/28 qq.com/by2017/07/28 qq.com/by32017/07/28 qq.com/news2017/07/28 sina.com/news/socail2017/07/28 163.com/ac2017/07/28 sina.com/news/soc...原创 2019-08-08 10:21:55 · 1099 阅读 · 1 评论 -
大数据——mapreduce实际应用的案例(map输出value为对象)
public class User implements Writable { private int num; private int a; private int b; private String phone; public User() { } public User(int a, int b, String phone) { this.num = a + b; this.a = a; thi原创 2019-08-08 09:57:36 · 1380 阅读 · 3 评论 -
linux防火墙打开关闭命令???设置开机不自启防火墙
关闭防火墙:systemctl stop firewalld.service开启防火墙:systemctl start firewalld.service关闭开机自启动:systemctl disable firewalld.service开启开机启动:systemctl enable firewalld.service...原创 2019-08-03 16:18:48 · 1624 阅读 · 0 评论 -
spark启动程序命令
使用standalone的client方式启动命令:./spark-submit --master spark://hive01:7077 --deploy-mode client --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.2.0.jar 300使用standalone的...原创 2019-09-06 11:26:09 · 2072 阅读 · 0 评论