Hive实现wordcount统计
- 创建一个数据库
1. hive> create database wordcount - 创建表
1. hive> create table docs(line string) - 准备数据
- 将数据加载到 docs 表中
• 将准备的数据添加到docs 表中
• 1. hive> load data inpath (local inpath为本地路径)’/user/hadoop/input/pg20417.txt’ into table docs;
• 查看
• 1. hive> select * from docs; - 切分数据
• 根据空格切分数据,切分出来的每个单词作为一行 记录到结果表。
• 创建结果表,存放单词统计记录。
• 1. hive> create table words(line string);
• split是拆分函数,跟java的split功能一样,这里是按照空格拆分,所以执行完hql语句,words表里面就全部保存的单个单词
• 1. hive> insert into table words select explode(split(line , " ")) from docs;
• 2. hive> select * from words; - 使用count
1. hive> select line, count(line) from words group by line;