data engineering
文章平均质量分 78
little_miya
这个作者很懒,什么都没留下…
展开
-
Business Intelligence商业智能:概念、数据仓库、相关工具
一、前言datawarehouse data marts, and data lakesdata warehousesEnterprise Data Warehouse 通用架构:data cube:slicing:dicing:drilling:pivoting:rolling up(aggregate):meterialized views可以设置不同的refresh option:never: creation的时候常用upon reques原创 2022-01-22 18:08:43 · 787 阅读 · 0 评论 -
数据库管理: Relational Database AdministrationDBA
一、工作内容数据库生命周期:数据库:instance:schema:设计database objects的时候,需要考虑:tablesconstraintsindexeskeysviewsaliaseseventtriggerslog filessystem objects and database configuration系统相关的设置与tables不同的数据库system objects不一样,内容差不多。mysql:configuration原创 2022-01-20 15:51:47 · 775 阅读 · 1 评论 -
kafka实验:生成流数据,订阅topic保存到mysql中
一、 启动启动zookeeper-server启动 kafka server创建topic二、 python生成流数据并发布到对应topic"""Top Traffic Simulator"""from time import sleep, time, ctimefrom random import random, randint, choicefrom kafka import KafkaProducerproducer = KafkaProducer(boot原创 2022-01-15 10:54:09 · 1583 阅读 · 0 评论 -
Apache Kafka: 分布式实时场景流数据管道平台(介绍,特性,架构,接口)
一、 EventEvent stream represents entities’ status update over time.ESP:ESP 组件:Event Broker: coreEvent StorageAnalytic and Query EngineKafkathe most popular ESP.kafka 架构:main features:distribution systemhighly scalablehghly reliablepreman原创 2022-01-13 16:34:11 · 1092 阅读 · 0 评论 -
Apache Airflow: 构建数据管道
一、overview特征:batch: not streamsopen-sourcepythonuseful UIintegrationarchitecturelifecycleDAG有向无环图: Directed Acyclic Graphnode: tasks(按照顺序执行)edges: dependencies点和边可以通过python来定义。二、 python操作用python定义DAG这个airflow pipeline实现这样一个简单功能:打印greetin原创 2022-01-12 20:53:57 · 388 阅读 · 0 评论 -
ETL、ELT、数据管道及其相关tool
一、定义1. ETLE: Extractionraw data sources:T: transformationD: data loadingpopular ETL toolstalendAWS GlueApache Airflow: scale for big datapandas2. ELT就是顺序变化了一下,先load再transform因为big data的出现,ELT热起来了。特点:和 ETL的区别:3. pipeline特性设计准则原创 2022-01-12 18:23:04 · 1017 阅读 · 0 评论