4.数据分析(明白命令的意思)

1.流量分析

、、、基于weblog数据库、、、
(1)创建表

create table dw_pvs_everyday(pvs bigint,month string,day string);

(2)插入数据

insert into table dw_pvs_everyday select count(*) as pvs,owd.month as month,owd.day as day from ods_weblog_detail owd group by owd.month,owd.day;

(3)查看插入的数据

select * from dw_pvs_everyday;

2、人均流量分析

(1)创建维度表

create table dw_avpv_user_everyday (day string,avgpv string);

(2)往维度表插入数据

insert into table dw_avpv_user_everyday select ‘2013-09-18’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-18’ group by remote_addr) b;

insert into table dw_avpv_user_everyday select ‘2013-09-19’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-19’ group by remote_addr) b;

insert into table dw_avpv_user_everyday select ‘2013-09-20’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-20’ group by remote_addr) b;

insert into table dw_avpv_user_everyday select ‘2013-09-21’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-21’ group by remote_addr) b;

insert into table dw_avpv_user_everyday select ‘2013-09-22’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-22’ group by remote_addr) b;

insert into table dw_avpv_user_everyday select ‘2013-09-23’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-23’ group by remote_addr) b;

insert into table dw_avpv_user_everyday select ‘2013-09-24’,sum(b.pvs)/count(b.remote_addr) from (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr=‘2013-09-24’ group by remote_addr) b;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很好,我明白了你的问题。以下是我的回答: 1. 要启动Hadoop集群,需要在每个节点上运行Hadoop守护程序。你需要先确保所有节点都已正确配置,并且Hadoop二进制文件已经正确安装。然后,在NameNode节点上运行以下命令: ``` $HADOOP_HOME/sbin/start-dfs.sh $HADOOP_HOME/sbin/start-yarn.sh ``` 这将启动Hadoop分布式文件系统和YARN资源管理器。 2. 要卸载任意NN节点,需要先执行以下命令以停止NameNode守护程序: ``` $HADOOP_HOME/sbin/hadoop-daemon.sh stop namenode ``` 然后,你可以卸载该节点,并在集群的其他节点上重新启动NameNode。 3. 要查看HDFS集群的健康状况,可以使用以下命令: ``` hdfs dfsadmin -report ``` 这将显示有关集群中每个节点的信息,包括节点的状态、容量和使用情况。你可以使用此信息来分析数据块是否处于非健康状态。 4. 要动态增加NN节点并分析数据块的最新状态,需要执行以下步骤: a. 启动新的NameNode守护程序,并将其添加到Hadoop配置文件中的节点列表中。 b. 启动新的DataNode守护程序,并将其添加到Hadoop配置文件中的节点列表中。 c. 在NameNode节点上执行以下命令以启动NameNode和DataNode之间的同步过程: ``` hdfs dfsadmin -refreshNodes ``` d. 执行以下命令以查看数据块的最新状态: ``` hdfs fsck / -files -blocks -locations ``` 这将显示有关所有数据块的信息,包括它们所在的节点和其健康状态。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值