![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 97
luyanbin_lqq
这个作者很懒,什么都没留下…
展开
-
HiveSQL需求记录
场景:如题,在Hive中导入S3中的CSV文件,CSV文件中有某些字段又是json串,而且还有数组,Hive将S3桶中的CSV文件导入表就不在这里说了,参照我另一篇就行,Hive将CSV文件导入表。导入表以后我们可以得到囊括了所有CSV字段数据的一张大表,而我们需要解析json字段将其放到一张新表里,哦对了,先把数据拿出来一条给大家看看。。。。LVYPDBAA0KP078772, ,“35...原创 2021-02-01 15:50:33 · 634 阅读 · 0 评论 -
使用shell脚本批量修改S3中的CSV文件的编码格式
如题:因为使用Hive导入csv的时候发生了中文乱码的问题,但是数据又有点难受,我们都知道Hive中如果乱码可以直接建表时指定ROW FORMAT SERDE lazysimpleserde.在这个serde中可以设置参数"serialization.encoding"='GBK’来解决乱码的问题。但是本次建表导csv文件的时候分割字段有点特殊,有的字段中有json数组并且数组内又分割符号,也就...原创 2020-05-06 17:19:37 · 749 阅读 · 0 评论 -
Hive分割字段数据中带有特殊分割字符的csv表
如题:进来项目中需要用hive表将csv文件导入一个表中,具体怎么导的可以参照我另一篇文章Hive将csv文件导入表话不多说,回归今日正题,因为我遇到了这样一种情况,就是酱紫的数据(只挑出来一条中的这几个特殊字段吧):“序号:1,驱动电机状态:耗电,驱动电机控制器温度:29,驱动电机转速:15.0,驱动电机转矩:584.0,驱动电机温度:25,电机控制器输入电压:338.0,电机控制器直流...原创 2020-04-28 15:08:47 · 1298 阅读 · 0 评论 -
Hive从S3中映射数据文件以及映射分区数据
之前也没接触过AWS对之不是很熟悉,但最近有需求需要在AWS的EMR中,用hive去获取S3桶(或者指定桶内文件夹)内的数据,这里记录一下。环境EMR,安装hadoop集群,hive映射数据1.直接映射数据直接将S3中的数据文件映射到hive表,不做任何处理。这个时候直接在hive中创建表的时候指定S3数据文件的映射路径即可。这里要注意,切分字段的关键字符必须必须必须是数据中的唯一切分...原创 2020-04-27 11:23:16 · 2322 阅读 · 0 评论 -
Hive将csv导入表后以parquet格式存储
如题:其实这样的实例网上一大堆,我只是搬来留待以备不时之需,话不多说开始吧。场景我在AWS的S3里面创建了两个文件夹,分别代表着存储csv文件和parquet格式的文件,首先我需要把csv文件导到hive表中,这里直接创建表建立映射路径即可:CREATE EXTERNAL TABLE IF NOT EXISTS `lyb`( `code` string COMMENT 'import...原创 2020-04-27 15:04:31 · 1811 阅读 · 0 评论