大数据
文章平均质量分 80
狂奔的蜗牛Evan
hello world
展开
-
ClickHouse,让查询飞起来!!!
在 1 亿数据集体量的情况下,ClickHouse 的平均响应速度是 Vertica 的 2.63 倍、InfiniDB 的 17 倍、MonetDB 的 27 倍、Hive 的 126 倍、MySQL 的 429 倍以及Greenplum 的 10 倍。扫描对应字段的 mark 标记文件获取两个偏移量信息(当前要查找的数据,处于这个 .bin 数据文件中的那个 压缩数据块,这个压缩数据块在 .bin 文件的偏移量, 这个压缩数据块解压缩出来之后,要找的数据在当前这个压缩数据块的偏移量)转载 2022-10-20 18:50:31 · 1810 阅读 · 0 评论 -
flink基本原理介绍 和 与其他流处理工具比较
Apache Flink是一个开源的分布式、高性能、高可用的流处理框架。主要有Java代码实现,支持scala和java API。支持实时流(stream)处理和批(batch)处理,批数据只是流数据的一个极限特例。Flink原生支持了迭代计算、内存管理和程序优化。转载 2022-09-19 23:14:27 · 543 阅读 · 0 评论 -
编辑docker容器中的文件
一般docker中没有VI或者其它相应的文本编辑器,为了写个东西安装个vi就可以解决问题,除此之外还有别的办法转载 2022-08-03 16:57:35 · 3678 阅读 · 0 评论 -
Docker-查看镜像仓库中镜像的版本信息
通过docker安装某个软件时,经常需要选择版本号否则默认安装lastest,docker search只能查询出docker仓库中是否存在该软件的镜像并不能查看到版本号,如果想要查看某docker镜像的全部版本,就需要用到以下方式。...原创 2022-08-03 10:15:01 · 16697 阅读 · 0 评论 -
docker出现问题:The container name “/XXX“ is already in use by container 解决方案
docker出现问题:The container name “/XXX“ is already in use by container 解决方案转载 2022-08-02 11:16:26 · 9793 阅读 · 0 评论 -
windows基于docker安装clickhouse21.4.6.55教程
windows基于docker安装clickhouse21.4.6.55教程转载 2022-08-02 11:13:51 · 711 阅读 · 0 评论 -
大数据调度平台Airflow(七):Airflow分布式集群搭建原因及其他扩展
扩展Master后的Airflow集群中只能运行一个Scheduler,那么运行的Scheudler进程挂掉,任务同样不能正常调度运行,这种情况我们可以在两台机器上部署scheduler,只运行一台机器上的Scheduler进程,一旦运行Schduler进程的机器出现故障,立刻启动另一台机器上的Scheduler即可,这种就是SchdulerHA,我们可以借助第三方组件airflow-scheduler-failover-controller实现Scheduler的高可用。,从而分布式处理任务。...转载 2022-07-17 23:18:57 · 991 阅读 · 0 评论 -
大数据调度平台Airflow(六):Airflow Operators及案例
定义依赖的触发规则,包括选项如下{all_success|all_failed|all_done|one_success|one_failed|none_failed|none_failed_or_skipped|none_skipped|dummy(无条件执行)}defaultisall_success。在“bash_command”中写执行脚本时,一定要在脚本后跟上空格,有没有参数都要跟上空格,否则会找不到对应的脚本。...转载 2022-07-17 23:17:08 · 3760 阅读 · 0 评论 -
大数据调度平台Airflow(五):Airflow使用
以上python文件就是Airflowpython脚本,使用代码方式指定DAG的结构。转载 2022-07-17 23:12:43 · 9294 阅读 · 2 评论 -
大数据调度平台Airflow(四):Airflow WebUI操作介绍
DAGDAG有对应的id,其id全局唯一,DAG是airflow的核心概念,任务装载到DAG中,封装成任务依赖链条,DAG决定这些任务的执行规则。点击以上每个DAG对应的id可以直接进入对应“GraphView”视图,可以查看当前DAG任务执行顺序图。以上“Runs”列与“RecentTasks”列下的“圆圈”代表当前DAG执行的某种状态,鼠标放到对应的“圆圈”上可以查看对应的提示说明。TreeViewGraphView日期视图,显示当前年每月每天任务执行情况。TaskTriesGantt。...转载 2022-07-17 23:09:03 · 747 阅读 · 0 评论 -
大数据调度平台Airflow(三):Airflow单机搭建
Airflow是基于Python的,就是Python中的一个包。安装要求Python3.6版本之上,MetadataDataBase支持PostgreSQL9.6+,MySQL5.7+,SQLLite3.15.0+。转载 2022-07-17 23:02:32 · 2882 阅读 · 1 评论 -
大数据调度平台Airflow(二):Airflow架构及原理
描述DAG中一个具体task要执行的任务,可以理解为Airflow中的一系列“算子”,底层对应pythonclass。Task是Operator的一个实例,也就是DAG中的一个节点,在某个Operator的基础上指定具体的参数或者内容就形成一个Task,DAG中包含一个或者多个Task。一个DAG中可以有很多task,这些task执行可以有依赖关系,例如task1执行后再执行task2,表明task2依赖于task1,这就是task之间的依赖关系。查询任务状态、详细日志等。...转载 2022-07-17 22:58:48 · 2226 阅读 · 0 评论 -
大数据调度平台Airflow(一):什么是Airflow
ApacheAirflow是一个提供基于DAG有向无环图来编排工作流的、可视化的分布式任务调度平台,与Oozie、Azkaban等任务流调度平台类似。Airflow在2014年由Airbnb发起,2016年3月进入Apache基金会,在2019年1月成为顶级项目。Airflow采用Python语言编写,提供可编程方式定义DAG工作流,可以定义一组有依赖的任务,按照依赖依次执行,实现任务管理、调度、监控功能。...转载 2022-07-17 22:56:38 · 991 阅读 · 0 评论 -
图解 ElasticSearch 原理,你可收好了!
图解 ElasticSearch 原理,你可收好了!(给数据分析与开发加星标,提升数据技能)来源:RichaaaardElasticsearch 是一款功能强大的开源分布式搜索与数据分析引擎,目前国内诸多互联网大厂都在使用,包括携程、滴滴、今日头条、饿了么、360 安全、小米、vivo 等。除了搜索之外,结合 Kibana、Logstash、Beats,Elastic Stack 还被广泛运用在大数据近实时分析领域,包括日志分析、指标监控、信息安全等多个领域。它可以...转载 2020-12-22 22:43:49 · 186 阅读 · 0 评论 -
大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)
目录(1)分类(2)回归分析(3)聚类(4)关联规则(5)神经网络方法(6)Web数据挖掘在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领.转载 2020-07-15 10:15:34 · 14339 阅读 · 0 评论 -
ETL方法与过程讲解
1 ETL基本概念和术语1.1 ETLExtract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。1.2 DWDataWarehousing,根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。1.3 MetaData元数据,就是描述数据的数据,...转载 2019-09-26 11:22:16 · 550 阅读 · 0 评论 -
几款开源的ETL工具及ELT初探
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。我们在下方列出了7款开源的ETL工具,并讨论了从 ETL 转向“无 ETL”的过程...转载 2019-09-26 11:38:29 · 851 阅读 · 0 评论 -
ETL讲解(很详细!!!)
ETL讲解(很详细!!!)ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据...转载 2019-09-26 11:12:18 · 322 阅读 · 0 评论 -
零基础大数据学习路线
一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。这句话至少传递两种信息:1、大数据是海量的数据2、大数据处理无捷径,对分析处理技术提出了更高的要求二、大数据的处理流程下图是数据处理流程:1、底层是数以千亿计的数据源,数据源可以是SCM(供应链数据),4PL(物流数...转载 2019-09-26 11:51:32 · 186 阅读 · 0 评论