Hive项目流程总结

最新推荐文章于 2023-01-17 18:04:34 发布

闲看风起时

最新推荐文章于 2023-01-17 18:04:34 发布

阅读量742

点赞数

分类专栏：笔记文章标签： hive hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51628990/article/details/126236188

版权

本文总结了使用Hive处理大数据的项目流程，包括源数据的清洗，将CSV数据装载到Hive仓库，利用Java处理数据分隔问题，进行分词和词频统计，将结果导入MySQL，最后通过Echarts展示词频云图，并设置了Linux的crontab自动化执行任务。

摘要由CSDN通过智能技术生成

项目流程

一、清洗源数据

二、将源数据装载到hive仓库中

三、进行分词并统计词频

四、将数据从hive导入mysql

五、展示词频云图

六、linux自动化执行shell脚本

详细步骤

清洗源数据

源数据的文件格式是csv，csv为Comma-Separated Values，意为“字符分隔值”。该文件可看作一个表格，一般情况下以英文逗号（,）分隔每个单元格，以换行分隔每个单元行，同时，文件第一行是列名。该文件可看作文本文件，在hive中可以指定**stored as textfile**来接收该文件。

遇见问题：对于“评论”这样比较自由的文本，csv文件以英文双引号（"）标识一个单元格，但仍有较大可能导致hive将评论内容错误识别为一个单元格。 ———————— 解决方法：使用java程序读取源文件，将每个单元格以用户无法输入的字符（\001）作为分隔符，从而使hive正确分隔数据。

将源数据装载到hive仓库中

在决定使用java程序处理源文件之前，尝试使用org.apache.hadoop.hive.serde2.opencsvserde解析csv文件，但仍有问题。这个serde可以按照英文双引号识别“评论”单元格，但评论内有英文双引号就会失误，因此最终选择使用java程序处理源文件。

SerDe 是 Serializer/Deserializer 的简写，本质是

最低0.47元/天解锁文章

闲看风起时

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。