AWS
文章平均质量分 97
luyanbin_lqq
这个作者很懒,什么都没留下…
展开
-
HiveSQL需求记录
场景:如题,在Hive中导入S3中的CSV文件,CSV文件中有某些字段又是json串,而且还有数组,Hive将S3桶中的CSV文件导入表就不在这里说了,参照我另一篇就行,Hive将CSV文件导入表。导入表以后我们可以得到囊括了所有CSV字段数据的一张大表,而我们需要解析json字段将其放到一张新表里,哦对了,先把数据拿出来一条给大家看看。。。。LVYPDBAA0KP078772, ,“35...原创 2021-02-01 15:50:33 · 624 阅读 · 0 评论 -
使用shell脚本批量修改S3中的CSV文件的编码格式
如题:因为使用Hive导入csv的时候发生了中文乱码的问题,但是数据又有点难受,我们都知道Hive中如果乱码可以直接建表时指定ROW FORMAT SERDE lazysimpleserde.在这个serde中可以设置参数"serialization.encoding"='GBK’来解决乱码的问题。但是本次建表导csv文件的时候分割字段有点特殊,有的字段中有json数组并且数组内又分割符号,也就...原创 2020-05-06 17:19:37 · 721 阅读 · 0 评论 -
Hive分割字段数据中带有特殊分割字符的csv表
如题:进来项目中需要用hive表将csv文件导入一个表中,具体怎么导的可以参照我另一篇文章Hive将csv文件导入表话不多说,回归今日正题,因为我遇到了这样一种情况,就是酱紫的数据(只挑出来一条中的这几个特殊字段吧):“序号:1,驱动电机状态:耗电,驱动电机控制器温度:29,驱动电机转速:15.0,驱动电机转矩:584.0,驱动电机温度:25,电机控制器输入电压:338.0,电机控制器直流...原创 2020-04-28 15:08:47 · 1259 阅读 · 0 评论 -
Hive将csv导入表后以parquet格式存储
如题:其实这样的实例网上一大堆,我只是搬来留待以备不时之需,话不多说开始吧。场景我在AWS的S3里面创建了两个文件夹,分别代表着存储csv文件和parquet格式的文件,首先我需要把csv文件导到hive表中,这里直接创建表建立映射路径即可:CREATE EXTERNAL TABLE IF NOT EXISTS `lyb`( `code` string COMMENT 'import...原创 2020-04-27 15:04:31 · 1770 阅读 · 0 评论 -
Hive从S3中映射数据文件以及映射分区数据
之前也没接触过AWS对之不是很熟悉,但最近有需求需要在AWS的EMR中,用hive去获取S3桶(或者指定桶内文件夹)内的数据,这里记录一下。环境EMR,安装hadoop集群,hive映射数据1.直接映射数据直接将S3中的数据文件映射到hive表,不做任何处理。这个时候直接在hive中创建表的时候指定S3数据文件的映射路径即可。这里要注意,切分字段的关键字符必须必须必须是数据中的唯一切分...原创 2020-04-27 11:23:16 · 2184 阅读 · 0 评论 -
python将文件上传到S3
如题:现在需要将指定的文件或者文件夹原创 2020-04-15 16:02:58 · 1808 阅读 · 0 评论 -
python——将实时流数据传入kinesis
使用场景如题,生产数据源源不断的传入kinesis实时流中,然后与redis中已缓存的数据做匹配,若匹配成功则将指定的数据替换后传入firehouse流,用以在AWS平台做后续存入S3存储库处理。代码示例:import base64from io import StringIO, BytesIOimport jsonimport boto3import redisimport da...原创 2020-04-14 13:44:16 · 702 阅读 · 0 评论 -
使用docker推送映像到ECR
使用场景在EC2中,安装docker,然后将项目打包上传到ECR上。这里使用的是linux。步骤1.首先在EC2中安装aws-cli、docker,并配置aws configure的AKSK。2.因为是使用docker将映像上传到ECR,配置好aws-cli客户端后要将docker向ECR进行注册表验证,否则无法上传,使用aws-cli命令进行验证aws ecr get-login-...原创 2020-04-07 14:22:49 · 753 阅读 · 0 评论 -
使用S3 select查询数据放入redis缓存——python
使用S3select查询数据放入redis缓存前言:完全不懂的新手因项目需求(用python)不得已查了点资料比着葫芦画瓢去做了个测试,留之待以后改正。ps:不会python,之前基本也没了解过AWS。不喜勿喷。准备环境1,既然是查询S3内数据文件的数据,当然得有AWS了,需要AWS上创建个S3,然后将测试数据文件先上传。(在平台上直接上传,当然。。。也可以使用boto3上传和下载,网上...原创 2020-04-02 22:01:58 · 754 阅读 · 0 评论