02 在Hive中完成词频统计

上一节我们在CentOS7中安装了Hive,本章将演示如何在Hive当中完成词频统计。

1 系统、软件以及前提约束

2 操作

  • 1 在/root下创建一个email文件,内容如下
HillarSt@CardBlvdsnaase.no
p_b@Care2www.ro
su.h@UseNM.netloabat.no
adrienn_c@mailccszex.hu
CedricR@acmemail.com
Jilli_Cohen@NCTTA.orgpref.hyogo.jp
Robe_Peterson@AsianWiredVibo-Valentia.it
MClay@JesusAnswershorten.no
reginaada@FitMommiesoystre-slidre.no
vh@GAMPortlunner.no
sadyer@mailinator.com
noel_sava@doramail.comnet.mk
el.callaha@Apperiohu
sdal@zapo.netgm
althea.hickm@MochaMailarendal.no
y_du@Surfygjerdrum.no
tam.pi@Mini-MailBozen.it
No.Dors@e-tapaal.comketrzyn.pl
eve.dan@iSleuthMailtinn.no
kma@BlueBottlear.us
port.lars@spils.comflatanger.no
ciar_wh@aolmail.aol.comms
PhEmers@junglemate.comgov.tw
pe_f@zzn.comnet.ae
Chaney.Ashle@firstname.comsandnessjoen.no
Je.W@ValleyAlleygov.je
Allegr.Garr@mail.yahoo.compref.kagoshima.jp
Lev_H@PeopleWebnotteroy.no
Nath_Ho@NCTTA.orgco.tj
katellw@fastmail.fmgop.pk
  • 2 上传这个文件到HDFS
cd /root/hadoop-2.5.2
./hdfs dfs -put /root/email /email
  • 3 进入hive命令行
cd /root/apache-hive-0.14.0-bin/bin
./hive
  • 4 在hive命令行中创建t_email表
# 在hive中创建一张表t_email
create table if not exists t_email(email string comment 'user email') comment 'user email' row format delimited fields terminated by ' ' lines terminated by '\n' stored as textfile;
# 将HDFS数据导入Hive
load data inpath '/email' into table t_email
# 或者我们也可以将本地的数据导入Hive
load data local inpath '/root/email' into table t_email
# 总共有多少表
show tables;
# 查看表的详细信息
desc t_email;
  • 5 在hive命令行中统计
# 查看数据
select * from t_email;
# 统计共有多少行
select count(1) from t_email;
# 统计每个邮箱出现的次数
select email,count(1) from t_email group by email;

以上就是在Hive中进行数据基本操作的过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值