Hive项目流程总结

本文总结了使用Hive处理大数据的项目流程,包括源数据的清洗,将CSV数据装载到Hive仓库,利用Java处理数据分隔问题,进行分词和词频统计,将结果导入MySQL,最后通过Echarts展示词频云图,并设置了Linux的crontab自动化执行任务。
摘要由CSDN通过智能技术生成

项目流程

一、清洗源数据

二、将源数据装载到hive仓库中

三、进行分词并统计词频

四、将数据从hive导入mysql

五、展示词频云图

六、linux自动化执行shell脚本

详细步骤

清洗源数据

源数据的文件格式是csv,csv为Comma-Separated Values,意为“字符分隔值”。该文件可看作一个表格,一般情况下以英文逗号(,)分隔每个单元格,以换行分隔每个单元行,同时,文件第一行是列名。该文件可看作文本文件,在hive中可以指定**stored as textfile**来接收该文件。

遇见问题: 对于“评论”这样比较自由的文本,csv文件以英文双引号(")标识一个单元格,但仍有较大可能导致hive将评论内容错误识别为一个单元格。 ———————— 解决方法: 使用java程序读取源文件,将每个单元格以用户无法输入的字符(\001)作为分隔符,从而使hive正确分隔数据。

将源数据装载到hive仓库中

在决定使用java程序处理源文件之前,尝试使用org.apache.hadoop.hive.serde2.opencsvserde解析csv文件,但仍有问题。这个serde可以按照英文双引号识别“评论”单元格,但评论内有英文双引号就会失误,因此最终选择使用java程序处理源文件。

SerDe 是 Serializer/Deserializer 的简写,本质是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值