1、本地文件导入表的测试
(1)在本地新建“生词本”
相关命令与内容:
- vim vocab.txt
- ------------------------------内 容------------------------------
- 1.ability
- 2.ambition
- 3.headquarters
- 4.industrialize
- ------------------------------内 容------------------------------
(2)进入hiveshell模式
相关命令:
hive
注意:当环境变量设置后才能直接使用以上命令。
(3)建立新表并查看存在新表与新表结构
建立一个存放“生词本”单词的表格,字段之间是“.”分割。
相关命令:
- create table VOCAB(num int,word string)row format delimited fields terminated by '.';
- show tables;
- desc VOCAB;
(4)导入数据到表中
相关命令:
load data local inpath '/home/hadoop/vocab.txt' overwrite into table VOCAB;
5)查询表中内容
相关命令:
select * from VOCAB;
2、词频统计
(1)在本地建立不完全相同的词频文件
相关命令与内容:
- vim wordCount.txt
- ------------------------------内 容------------------------------
- I,100
- have,1000
- a,200
- pen,3000
- you,2222
- are,777
- amazing,9999
- ------------------------------内 容------------------------------
(2)进入hiveshell模式
相关命令:
hive
(3)建立新表并查看存在新表与新表结构
建立一个存放不完全相同的词频单词的表格,字段之间是“,”分割。
相关命令:
- create table WOCO(word string,count int)row format delimited fields terminated by ',';
- show table;
- desc WOCO;
(4)导入数据到表中
相关命令:
load data local inpath '/home/hadoop/wordCount.txt' overwrite into table WOCO;
(5)查询表中内容
相关命令:
select * from WOCO;
(6)使用命令进行mapreduce筛选查询
相关命令:
- select WOCO.word from WOCO;
- select * from WOCO where WOCO.count>1000; //筛选满足出现次数大于1000的单词;
- select * from WOCO sort by count desc limit 3;//通过降序来筛选单词