数据Hive综合项目实验分析

本文介绍了在一个Hadoop集群上使用Hive进行数据处理的完整流程,包括开启Hadoop集群、数据导入、数据库创建、数据清洗、数据加载、数据查询以及使用UDF进行特定统计。在实验中,对历史微博和用户注册数据进行了处理,统计了微博数量、用户数量,并实现了自定义函数(UDF)以统计包含'iphone'的微博数。遇到的内存问题通过查询和调整虚拟机内存得到解决。
摘要由CSDN通过智能技术生成

1.在实验前开启Hadoop集群

master:start-dfs.sh

slave1:   satart-yarn.sh

注:namenode出现安全模式解决办法  hdfs dfsadmin -safemode leave

2.数据准备

将实验所有数据导入虚拟机中。

推荐路径

历史微博数据:/root/data/weibo

用户注册数据:/root/data/user

3.将存放历史微博数据合并

cd/root/data/weibo

4.创建实验所需要用到的数据库:

create database 数据库名;

use 数据库;

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值