luyanbin_lqq-CSDN博客

原创 HiveSQL需求记录

场景：如题，在Hive中导入S3中的CSV文件，CSV文件中有某些字段又是json串，而且还有数组，Hive将S3桶中的CSV文件导入表就不在这里说了，参照我另一篇就行，Hive将CSV文件导入表。导入表以后我们可以得到囊括了所有CSV字段数据的一张大表，而我们需要解析json字段将其放到一张新表里，哦对了，先把数据拿出来一条给大家看看。。。。LVYPDBAA0KP078772, ,“35...

2021-02-01 15:50:33 663

如题：因为使用Hive导入csv的时候发生了中文乱码的问题，但是数据又有点难受，我们都知道Hive中如果乱码可以直接建表时指定ROW FORMAT SERDE lazysimpleserde.在这个serde中可以设置参数"serialization.encoding"='GBK’来解决乱码的问题。但是本次建表导csv文件的时候分割字段有点特殊，有的字段中有json数组并且数组内又分割符号，也就...

2020-05-06 17:19:37 764

原创 crontab定时任务管理器

如题：在linux中默认的有一个定时任务管理器，就是crontab，在这里我们可以用which crontab命令查看一下。可以看到crontab是已经安装过的。而crontab作用就是定时跑任务，有时候我们需要服务器定时去执行某个脚本来触发一个操作，比如定时备份数据，数据库数据等不适合人工的一些操作。crontab的文件及文件夹？1.首先要知道几个重要的文件夹以及文件/var/sp...

2020-04-20 16:25:13 441

原创 spark搭建源码阅读环境

如题：怎样编译spark源码方便读呢？首先当然是先去官网或者github上下载spark源码包，这里附上官网地址spark-2.4.5下载下载好spark源码包以后解压，然后编译一下导入IDEA就可以愉快的看源码了，怎样编译呢？这里以windows 10举例。环境准备首先要搭建好需要的环境，比如scala，maven和java，我的环境是1.8的java，2.11.11的scala以及3...

2020-04-19 15:42:15 629 2

原创 python将文件上传到S3

如题：现在需要将指定的文件或者文件夹

2020-04-15 16:02:58 1881

原创 python——将实时流数据传入kinesis

使用场景如题，生产数据源源不断的传入kinesis实时流中，然后与redis中已缓存的数据做匹配，若匹配成功则将指定的数据替换后传入firehouse流，用以在AWS平台做后续存入S3存储库处理。代码示例：import base64from io import StringIO, BytesIOimport jsonimport boto3import redisimport da...

2020-04-14 13:44:16 744

原创使用docker推送映像到ECR

使用场景在EC2中，安装docker，然后将项目打包上传到ECR上。这里使用的是linux。步骤1.首先在EC2中安装aws-cli、docker，并配置aws configure的AKSK。2.因为是使用docker将映像上传到ECR，配置好aws-cli客户端后要将docker向ECR进行注册表验证，否则无法上传，使用aws-cli命令进行验证aws ecr get-login-...

2020-04-07 14:22:49 836

原创使用S3 select查询数据放入redis缓存——python

使用S3select查询数据放入redis缓存前言：完全不懂的新手因项目需求（用python）不得已查了点资料比着葫芦画瓢去做了个测试，留之待以后改正。ps:不会python，之前基本也没了解过AWS。不喜勿喷。准备环境1，既然是查询S3内数据文件的数据，当然得有AWS了，需要AWS上创建个S3，然后将测试数据文件先上传。（在平台上直接上传，当然。。。也可以使用boto3上传和下载，网上...

2020-04-02 22:01:58 790

原创 Hadoop架构原理、三大组件详解（笔记）

Hadoop是一个由Apache基金会所开发的大数据分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的为例进行高速运算和存储。Hadoop框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了运算。Hadoop大数据处理的意义：Hadoop得以在大数据处理应用中广泛应用得益于其自身在...

2019-09-20 16:20:49 2706

原创 Python爬取豆瓣电影TOP250相关数据

Python用途广泛，功能强大。。。所以闲来无事想学学python，发帖记录我的学习过程，本次给大家分享一下简单的python爬取豆瓣电影TOP250的一些相关信息，比如电影名、资料等。至于一些关于python的介绍，各位自己再百度，至于代码的意思，注解的也相对很详细了。当然啦，写法有很多，各不相同！我就用贼笨贼low但贼一目了然的那种！各位看官共勉！因为我是新手，看网上教程说推荐新手使用IDL...

2019-08-15 16:03:04 740

原创 kafka producer生产100W条测试数据

话不多说先上代码，后续再完善说明import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import ...

2019-08-05 15:32:26 1749

原创 sparkstreaming对接kafka将数据批量插入数据库(java版本)

话不多说先上代码import DBUtils.Databases;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializ...

2019-08-05 15:24:22 2983 5

原创 (Scala)sparkstreaming手动提交offset到zookeeper中，kafka版本0.10

话不多说先上代码，后续再写说明package zookeeper_offsetimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimpo...

2019-08-05 15:07:36 705

原创 (Scala语言)sparkstreaming手动提交offset值到kafka(0.10版本)简单示例

SparkStreaming对接kafka处理数据流，手动提交offset到kafka新手小白没事上来写点博客玩玩，第一次昂好紧张。。。大佬们不喜勿喷。我用的是kafka0.10版本的，不是0.8的，旧版本的kafka的offset值是由zookeeper监管，在对应的brokers/topics/partitions下好像，具体记不清了。0.10版本的kafka则是由kafka自己管理off...

2019-07-30 15:06:40 2321

原创 python爬虫详细笔记

如题。本次爬数据的网站是招标网，数据是需要登录之后才能看到。这里并没有模拟登录而是直接通过手动登录后，拿到cookie等参数模拟已登录。本次爬数据使用python第三方模块requests和bs4。首先打开招标网看下基本情况：一.不需要登录时爬基本信息直接搜索查询关键词的话，查询的一些关于关键词的一些文件的基本信息（标题，时间等等基本信息）时，并不需要登录。比如下图所示：这里需要注意的有：（F12打开开发者工具）1.在network栏里，查看查询的那个接口（一般都是在最上方，下面一大堆都是数据

2022-01-17 16:28:08 1645

原创通过http协议验证动态刷新token后调用接口回传数据

如题，需求如下：现要求通过调用接口将hive表中的数据回传，但首先要通过token验证，而且token是一天后过期，refresh_token30天过期，而若想要获取最新token值，则需要调用刷新token的接口并将刷新后的token和refresh_token存入数据库以便后续直接从数据库获取。**流程分析：**首先，因为接口需要token验证，所以需要先获取token，而获取token则通过授权码auth_code调用另一接口获取，接口返回token和refresh_token，然后调用刷新tok

2021-05-18 16:39:13 786 1

斌躏天下的博客