使用NodeJSLambda函数查询RDSMySQL数据库及大数据环境下的数据仓库[图]-CSDN博客

本文链接：https://blog.csdn.net/minemi/article/details/111241932

一、使用NodeJSLambda函数查询RDSMySQL数据库
最近，我第一次尝试了AWSlambda。我的任务是查询RDSMySQL数据库。在这篇文章中，我将分享我的经验。
第一次尝试：使用内联代码编辑器
自从我使用NodeJS以来，第一件事就是找出一个好的MySQL节点包。幸运的是，我找到了这个MySQL库，并且它也有不错的文档，编写代码很简单。
由于能够快速完成代码，因此我跳入Lambda控制台内联代码编辑器，复制并粘贴了代码，并对其进行了测试。但是，出错了。我得到的错误如下：
我发现AWS本身不支持我们使用的MySQL模块，因此我们需要提供捆绑的ZIP文件作为lambda函数。

使用NodeJSLambda函数查询RDSMySQL数据库及大数据环境下的数据仓库[图]

第二次尝试：使用捆绑的节点项目
我们可以简单地使用nodeinit命令（假设已安装NodeJS并准备就绪）来创建一个package.json文件初始化节点项目。这里的重要一件事是，AWSLambda要求节点项目名称必须与lambda名称相同。
我们需要MySQL软件包，运行以下命令。
以下是package.json，
然后，我们需要创建一个index.js文件，并使用与上面相同的代码。最后，我们需要创建一个ZIP文件（可以使用命令zip-rquery-db.zip）并将其作为lambda函数上传。请注意，ZIP文件中不应有内部目录。如果列出ZIP文件（unzip-lquery-db.zip）的内容，则应如下所示。
此时又出现了一个连接超时问题，并显示以下错误。
检查Lambda的权限
检查您的RDS实例的安全组
检查您的Lambda函数是否使用VPC
检查您的代码是否正确关闭了连接
二、大数据入门：大数据环境下的数据仓库
进入大数据时代，大数据存储的解决方案，往往涉及到数据仓库的选型策略。从传统时期的数据仓库，到大数据环境下的数据仓库，其核心的技术架构是在随着最新技术趋势而变化的。今天的大数据入门分享，我们就来讲讲，大数据环境下的数据仓库。

数据仓库的概念，最早是在1991年被提出，而直到最近几年的大数据趋势下，实时数据处理快速发展，使得数据仓库技术架构不断向前，出现了实时数仓，而实时数仓又分为批数据+流数据、批流一体两种架构。1、离线数仓离线数仓，读书笔记（https://www.yuananren.com）其实简单点来说，就是原来的传统数仓，数据以T+1的形式计算好放在那里，给前台的各种分析应用提供算好的数据。到了大数据时代，这种模式被称为“大数据的批处理”。

只不过原本的单体环境工具（Oracle、Informatica等）基本都被替换成了大数据体系内（Hadoop、Hive、Sqoop、Oozie等）的工具而已。数据采集：flume/logstash+kafka，替代传统数仓的FTP；批量数据同步：Sqoop、Kettle，跟传统数仓一样用Kettle，部分商用ETL工具也开始支持大数据集群；大数据存储：HadoopHDFS/Hive、TiDB、GP等MPP，替代传统数仓的Oracle、MySQL、MSSQL、DB2等；大数据计算引擎：MapReduce、Spark、Tez，替代传统数仓的数据库执行引擎；OLAP引擎：Kylin/druid，（Molap，需预计算）、Presto/Impala，（Rolap，无需预计算），替代BO、Brio、MSTR等各种BI工具。2、实时计算实时数仓最开始是在日志数据分析业务中被广泛使用，后来在各种实时战报大屏的推动，实时数仓开始应用。与离线计算相比，实时计算减少了数据落地，替换了数据计算引擎，目前纯流式数据处理基本上就只有SparkStreaming了，而Flink是批流一体的。实时数据计算好结果后，可以落地到各种数据库中，也可以直接对接到大屏进行展示。
3、大数据环境下的两种数仓架构Lambda架构Lambda架构核心就三个：批数据处理层、流数据处理层和服务层。批数据处理层应对历史长时间数据计算，流数据处理层应对短时间实时数据计算。如果一个需求要历史到当前所有数据的累加结果，那就在服务层将两部分数据进行累加。Kappa架构Kappa架构的设计理念是，全部都进行流式计算。
流式计算的数据来源是消息队列，把所有需要计算的数据放在消息队列里，然后让流计算引擎计算所有数据。因为所有数据都存在Kafka，上面接Flink批流一体数据处理引擎将kafka的数据计算好存在服务层的tablen中。如果需求有变化了，就讲kafka的offset调整一下，Flink则重启一个任务重新计算，存在tableN+1中，当N+1的数据进度赶上tablen了，就停掉tablen的任务。关于大数据入门，大数据环境下的数据仓库，以上就为大家做了基本的介绍了。大数据时代的数据仓库，总体来说是根据当前的业务需求去进行架构设计的，所以需要更多结合业务去考量。