自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

斌躏天下的博客

新入坑大白一枚

  • 博客(21)
  • 收藏
  • 关注

原创 HiveSQL需求记录

场景:如题,在Hive中导入S3中的CSV文件,CSV文件中有某些字段又是json串,而且还有数组,Hive将S3桶中的CSV文件导入表就不在这里说了,参照我另一篇就行,Hive将CSV文件导入表。导入表以后我们可以得到囊括了所有CSV字段数据的一张大表,而我们需要解析json字段将其放到一张新表里,哦对了,先把数据拿出来一条给大家看看。。。。LVYPDBAA0KP078772, ,“35...

2021-02-01 15:50:33 662

原创 使用shell脚本批量修改S3中的CSV文件的编码格式

如题:因为使用Hive导入csv的时候发生了中文乱码的问题,但是数据又有点难受,我们都知道Hive中如果乱码可以直接建表时指定ROW FORMAT SERDE lazysimpleserde.在这个serde中可以设置参数"serialization.encoding"='GBK’来解决乱码的问题。但是本次建表导csv文件的时候分割字段有点特殊,有的字段中有json数组并且数组内又分割符号,也就...

2020-05-06 17:19:37 762

原创 crontab定时任务管理器

如题:在linux中默认的有一个定时任务管理器,就是crontab,在这里我们可以用which crontab命令查看一下。可以看到crontab是已经安装过的。而crontab作用就是定时跑任务,有时候我们需要服务器定时去执行某个脚本来触发一个操作,比如定时备份数据, 数据库数据等不适合人工的一些操作。crontab的文件及文件夹?1.首先要知道几个重要的文件夹以及文件/var/sp...

2020-04-20 16:25:13 432

原创 spark搭建源码阅读环境

如题:怎样编译spark源码方便读呢?首先当然是先去官网或者github上下载spark源码包,这里附上官网地址spark-2.4.5下载下载好spark源码包以后解压,然后编译一下导入IDEA就可以愉快的看源码了,怎样编译呢?这里以windows 10举例。环境准备首先要搭建好需要的环境,比如scala,maven和java,我的环境是1.8的java,2.11.11的scala以及3...

2020-04-19 15:42:15 624 2

原创 python将文件上传到S3

如题:现在需要将指定的文件或者文件夹

2020-04-15 16:02:58 1872

原创 python——将实时流数据传入kinesis

使用场景如题,生产数据源源不断的传入kinesis实时流中,然后与redis中已缓存的数据做匹配,若匹配成功则将指定的数据替换后传入firehouse流,用以在AWS平台做后续存入S3存储库处理。代码示例:import base64from io import StringIO, BytesIOimport jsonimport boto3import redisimport da...

2020-04-14 13:44:16 741

原创 使用docker推送映像到ECR

使用场景在EC2中,安装docker,然后将项目打包上传到ECR上。这里使用的是linux。步骤1.首先在EC2中安装aws-cli、docker,并配置aws configure的AKSK。2.因为是使用docker将映像上传到ECR,配置好aws-cli客户端后要将docker向ECR进行注册表验证,否则无法上传,使用aws-cli命令进行验证aws ecr get-login-...

2020-04-07 14:22:49 826

原创 使用S3 select查询数据放入redis缓存——python

使用S3select查询数据放入redis缓存前言:完全不懂的新手因项目需求(用python)不得已查了点资料比着葫芦画瓢去做了个测试,留之待以后改正。ps:不会python,之前基本也没了解过AWS。不喜勿喷。准备环境1,既然是查询S3内数据文件的数据,当然得有AWS了,需要AWS上创建个S3,然后将测试数据文件先上传。(在平台上直接上传,当然。。。也可以使用boto3上传和下载,网上...

2020-04-02 22:01:58 787

原创 Hadoop架构原理、三大组件详解(笔记)

Hadoop是一个由Apache基金会所开发的大数据分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的为例进行高速运算和存储。Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了运算。Hadoop大数据处理的意义:Hadoop得以在大数据处理应用中广泛应用得益于其自身在...

2019-09-20 16:20:49 2698

原创 Python爬取豆瓣电影TOP250相关数据

Python用途广泛,功能强大。。。所以闲来无事想学学python,发帖记录我的学习过程,本次给大家分享一下简单的python爬取豆瓣电影TOP250的一些相关信息,比如电影名、资料等。至于一些关于python的介绍,各位自己再百度,至于代码的意思,注解的也相对很详细了。当然啦,写法有很多,各不相同!我就用贼笨贼low但贼一目了然的那种!各位看官共勉!因为我是新手,看网上教程说推荐新手使用IDL...

2019-08-15 16:03:04 736

原创 kafka producer生产100W条测试数据

话不多说先上代码,后续再完善说明import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import ...

2019-08-05 15:32:26 1741

原创 sparkstreaming对接kafka将数据批量插入数据库(java版本)

话不多说先上代码import DBUtils.Databases;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializ...

2019-08-05 15:24:22 2977 5

原创 (Scala)sparkstreaming手动提交offset到zookeeper中,kafka版本0.10

话不多说先上代码,后续再写说明package zookeeper_offsetimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimpo...

2019-08-05 15:07:36 702

原创 (Scala语言)sparkstreaming手动提交offset值到kafka(0.10版本)简单示例

SparkStreaming对接kafka处理数据流,手动提交offset到kafka新手小白没事上来写点博客玩玩,第一次昂好紧张。。。大佬们不喜勿喷。我用的是kafka0.10版本的,不是0.8的,旧版本的kafka的offset值是由zookeeper监管,在对应的brokers/topics/partitions下好像,具体记不清了。0.10版本的kafka则是由kafka自己管理off...

2019-07-30 15:06:40 2313

原创 python爬虫详细笔记

如题。本次爬数据的网站是招标网,数据是需要登录之后才能看到。这里并没有模拟登录而是直接通过手动登录后,拿到cookie等参数模拟已登录。本次爬数据使用python第三方模块requests和bs4。首先打开招标网看下基本情况:一.不需要登录时爬基本信息直接搜索查询关键词的话,查询的一些关于关键词的一些文件的基本信息(标题,时间等等基本信息)时,并不需要登录。比如下图所示:这里需要注意的有:(F12打开开发者工具)1.在network栏里,查看查询的那个接口(一般都是在最上方,下面一大堆都是数据

2022-01-17 16:28:08 1611

原创 通过http协议验证动态刷新token后调用接口回传数据

如题,需求如下:现要求通过调用接口将hive表中的数据回传,但首先要通过token验证,而且token是一天后过期,refresh_token30天过期,而若想要获取最新token值,则需要调用刷新token的接口并将刷新后的token和refresh_token存入数据库以便后续直接从数据库获取。**流程分析:**首先,因为接口需要token验证,所以需要先获取token,而获取token则通过授权码auth_code调用另一接口获取,接口返回token和refresh_token,然后调用刷新tok

2021-05-18 16:39:13 780 1

原创 安装Linux操作系统(不是虚拟机)以及安装后的网络配置详细步骤

如题:今天需要给公司机器安装linux系统,闲来无事把过程记录了一下,话不多说上步骤。安装准备:本人是用U盘做启动盘安装的。所以需要先找个U盘(数据自己先做好备份,U盘需要被格式化),然后下载一个UtralISO软件(做启动盘用)。然后下载一个镜像文件。我这里安装的是centos的linux系统。镜像直接自己下载一个就好了。个人建议百度一个网盘下载的。用官网的下载太慢了。。。。做启动盘:打开UtralIso软件,点击右上角文件->打开,找到下载的ISO文件,如图所示:然后:然后

2020-06-29 10:58:21 1712 1

原创 使用PostMan测试接口,在Header中添加token验证

环境安装postman创建个springboot项目(springboot自带有tomcat),写个简单的测试接口,然后用postman调用接口测试。开始测试如图所示:在Authorization中添加APIKey 然后添加token和token的值,因为这里只是简单的开发个测试接口,所以不能通过登录验证去自动生成动态token,然后将token的返回值赋于Header中的token,...

2020-05-09 15:17:56 7714 1

原创 Hive分割字段数据中带有特殊分割字符的csv表

如题:进来项目中需要用hive表将csv文件导入一个表中,具体怎么导的可以参照我另一篇文章Hive将csv文件导入表话不多说,回归今日正题,因为我遇到了这样一种情况,就是酱紫的数据(只挑出来一条中的这几个特殊字段吧):“序号:1,驱动电机状态:耗电,驱动电机控制器温度:29,驱动电机转速:15.0,驱动电机转矩:584.0,驱动电机温度:25,电机控制器输入电压:338.0,电机控制器直流...

2020-04-28 15:08:47 1321

原创 Hive将csv导入表后以parquet格式存储

如题:其实这样的实例网上一大堆,我只是搬来留待以备不时之需,话不多说开始吧。场景我在AWS的S3里面创建了两个文件夹,分别代表着存储csv文件和parquet格式的文件,首先我需要把csv文件导到hive表中,这里直接创建表建立映射路径即可:CREATE EXTERNAL TABLE IF NOT EXISTS `lyb`( `code` string COMMENT 'import...

2020-04-27 15:04:31 1839

原创 Hive从S3中映射数据文件以及映射分区数据

之前也没接触过AWS对之不是很熟悉,但最近有需求需要在AWS的EMR中,用hive去获取S3桶(或者指定桶内文件夹)内的数据,这里记录一下。环境EMR,安装hadoop集群,hive映射数据1.直接映射数据直接将S3中的数据文件映射到hive表,不做任何处理。这个时候直接在hive中创建表的时候指定S3数据文件的映射路径即可。这里要注意,切分字段的关键字符必须必须必须是数据中的唯一切分...

2020-04-27 11:23:16 2403

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除