
大数据框架
文章平均质量分 81
风情客家__
简述需要300字以内_(¦3」∠)_
展开
-
大数据开源框架技术扫盲
引言主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。目录系统平台 (Hadoop、CDH、HDP) 监控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle) 文件系统 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio) 资源调度 (YARN、Mes转载 2023-11-27 10:07:30 · 484 阅读 · 0 评论 -
Centos7 离线安装 CDH7.1.7
角色IPk8s-master192.168.181.129k8s-node1192.168.181.130k8s-node2192.168.181.1311.3 更改主机名和hosts1.4 关闭防火墙并重启服务器使hostname和selinux的配置生效1.5 安装NTP服务1.6 关闭透明大页1.7 磁盘写进fstab1.8 其它调优2. CDH版本选择最新版本为:Index of cm6/6.3.1/redhat7/yum/R原创 2023-11-24 16:19:18 · 703 阅读 · 0 评论 -
Hadoop发行版 Cloudera CDH 6.3.2及CM 安装包下载(阿里云盘 不限速)
由于CDH已停止维护,且Cloudera不再为CDH提供免费的下载服务,因此网上很难直接下载到CDH和管理工具CM的安装包。百度云盘上的资源下载速度极慢,开了会员才下载下来。原创 2023-11-24 11:15:35 · 1571 阅读 · 1 评论 -
各个OLAP 引擎详细对比介绍
说起 Druid,大家首先想到的是阿里的 Druid 数据库连接池,而本文介绍的 Druid 是一个在大数据场景下的解决方案,是需要在复杂的海量数据下进行交互式实时数据展现的 BI/OLAP 工具。Druid 的架构是 Lambda 架构,分成实时层( Overlord、 MiddleManager )和批处理层( Broker 和 Historical )。更多关于架构的描述,可以看官方文档或者 《Druid在有赞的实践》转载 2023-08-17 09:22:38 · 647 阅读 · 0 评论 -
分布式系统遇到的十个问题
我们都在讨论分布式,特别是面试的时候,不管是招初级软件工程师还是高级,都会要求懂分布式,甚至要求用过。传得沸沸扬扬的分布式到底是什么东东,有什么优势?RabbitMQ 丢失消息的处理方案分布式还有很多坑,这篇只是一个小小的总结,从这些坑中,我们也知道分布式有它的优势也有它的劣势,那到底该不该用分布式,完全取决于业务、时间、成本以及开发团队的综合实力。后续我会继续分享分布式中的一些底层原理,当然也少不了分享一些避坑指南。参考资料:美团的 Leaf-Snowflake 算法。转载 2023-06-27 22:12:18 · 1085 阅读 · 1 评论 -
Splunk简介,部署,使用
收集,存储,索引,搜索,关联,可视化,分析和报告日志管理用例日志整合和保留,安全性,IT操作故障排除,应用程序故障排除以及合规性报告Splunk 是一款顶级的日志分析软件,如果你经常用 grep、awk、sed、sort、uniq、tail、head 来分析日志,那么你需要 Splunk。能处理常规的日志格式,比如 apache、squid、系统日志、mail.log 这些。对所有日志先进行 index,然后可以交叉查询,支持复杂的查询语句。然后通过直观的方式表现出来。转载 2023-04-26 17:46:31 · 3155 阅读 · 1 评论 -
FlinkX本地DEBUG调试
1、在IDEA中file--open--选择FlinkX源码,将项目导入到IDEA中。用户在本地进行DEBUG能方便理解FlinkX原理和解决数据同步中出现的异常问题。1、用户已经按照开始文档要求在本地下载编译好FlinkX源码。转载 2023-04-20 11:50:48 · 400 阅读 · 0 评论 -
FlinkX快速开始
FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等。转载 2023-04-20 11:37:29 · 248 阅读 · 0 评论 -
FlinkX的安装与使用(异构数据同步工具——flinkx)
FlinkX是由袋鼠云开源基于Flink的分布式离线和实时相结合的数据同步框架,既可以采集静态的数据比如:MYSQL,HDFS等,也可以采集实时变化的数据比如:等。目前官方已经支持多种异构数据源之间高效的数据同步。原创 2023-04-20 11:10:13 · 1160 阅读 · 0 评论 -
FlinkX简介(什么是FlinkX?)
当产生业务数据或Flink程序引起的采集进程中断时,可基于Flink定期存储的快照,对流数据的读取节点进行保存,从而在进行故障修复时,可选择历史保存的数据断点进行续跑操作,保证数据的完整性。主要应用于大数据开发平台的数据同步/数据集成模块,通常采用将底层高效的同步插件和界面化的配置方式相结合的方式,使大数据开发人员可简洁、快速的完成数据同步任务开发,实现将业务数据库的数据同步至大数据存储平台,从而进行数据建模开发,以及数据开发完成后,将大数据处理好的结果数据同步至业务的应用数据库,供企业数据业务使用。转载 2023-04-20 10:54:16 · 3344 阅读 · 0 评论 -
Flinkx/Datax/Flink-CDC 优劣势对比
FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾),并维护该开源社区。目前已完成批流统一,离线计算与流计算的数据同步任务都可基于FlinkX实现。FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等。原创 2023-04-20 10:40:03 · 3782 阅读 · 0 评论 -
开源工作流调度平台Argo和Airflow对比
Argo是一个基于Kubernetes的开源容器化工作负载管理平台。它旨在简化DevOps流程,并减少运营部署和管理Kubernetes环境时的复杂性。1.1 Argo工作流Argo工作流是用于建模、编排和执行一组相关任务的工作流程。它使用YAML文件来定义工作流的各个阶段和任务。支持多种任务类型,包括容器化任务、脚本任务、并行任务等;提供不同类型的控制流,例如串行、并行、条件、循环等;支持与外部工具和服务进行交互,例如Git、Jenkins、Slack等;转载 2023-04-07 09:38:08 · 1803 阅读 · 0 评论 -
AirFlow简介
参考文章:AirFlow简介 - 堕落门徒 - 博客园airflow 实战总结 - 知乎1, 简介 Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理。1.1 airflow 介绍airflow是一款开源的,分布式任务调度框架,它将一个具有上下.转载 2022-03-30 09:24:21 · 9770 阅读 · 0 评论 -
keystore和truststore
参考文章:keystore和truststorekeyStore和truststore区别_yetugeng的专栏-CSDN博客_truststore首先需要理解什么是keystore,keystore是存储密钥(公钥、私钥)的容器。keystore和truststore其本质都是keystore。只不过二者盛放的密钥所有者不同而已,对于keystore一般存储自己的私钥和公钥,而truststore则用来存储自己信任的对象的公钥。举例说明:1.单向认证:由 于单向认证是客户端去.转载 2021-12-15 15:02:33 · 2404 阅读 · 0 评论 -
HBase的高并发和实时处理数据、HBase系统架构
参考文章:HBase的高并发和实时处理数据、HBase系统架构本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解Hadoop生态系统,若想运行HBase,则需要先搭建好Hadoop集群环境。好了,让我们来学习HBase吧!HBase简介HBase的发展史2006年底由PowerSet 的Chad Walters和Jim Ke转载 2021-09-28 13:27:40 · 2708 阅读 · 0 评论 -
大数据分析神兽麒麟(Apache Kylin)
参考文章:大数据分析神兽麒麟(Apache Kylin)1.Apache Kylin是什么?在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持;而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式查询等等。神兽Apache Kylin就是为了解决这些问题而设计的。Apa转载 2021-08-16 10:11:14 · 2303 阅读 · 0 评论 -
大数据的价值
参考文章:http://www.360doc.com/content/20/0927/18/39821762_937880792.shtmlAI计算核心问题原创 2021-07-27 10:28:20 · 138 阅读 · 0 评论 -
时序数据库常见的4个误区
参考文章:时序数据库的4个误区,你踩了几个?yMatrix技术探讨系列,希望能为各位在业务场景中选择到合适的数据平台和技术栈提供一种全新的思路和想法。30秒执行摘要时序数据是结构化数据,很适合使用为时序优化过的关系数据库存储和处理; 时序场景期望数据的正确性(ACID),以确保数据不错不重不丢,不支持ACID不是因为不需要,而是过去的产品做不到; 时序数据库需要强大的分析能力,而不是仅简单查询能力; 时序场景包含关系数据+时序数据,而不是仅有时序数据。近几年IoT、IIoT、AIo转载 2021-05-26 15:41:17 · 1289 阅读 · 0 评论 -
快手元数据治理实践
参考文章:快手元数据治理实践Flink 从入门到精通系列文章转载 2021-03-15 17:52:16 · 275 阅读 · 0 评论 -
HBase、Kudu 和 ClickHouse 全视角对比
参考文章:HBase、Kudu 和 ClickHouse 全视角对比前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。Apache Kudu是Cloudera Manager公司16年发布的转载 2021-03-15 17:33:26 · 966 阅读 · 0 评论 -
Flink + Iceberg 全场景实时数仓的建设实践
参考文章:Flink + Iceberg 全场景实时数仓的建设实践摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。本文由腾讯数据平台部高级工程师苏舒分享,主要介绍.转载 2021-03-11 18:10:48 · 731 阅读 · 0 评论 -
Lambda,Kappa架构简介
参考文章:深入理解大数据架构之——Lambda架构传统系统的问题“我们正在从IT时代走向DT时代(数据时代)。IT和DT之间,不仅仅是技术的变革,更是思想意识的变革,IT主要是为自我服务,用来更好地自我控制和管理,DT则是激活生产力,让别人活得比你好”——阿里巴巴董事局主席马云。数据量从M的级别到G的级别到现在T的级、P的级别。数据量的变化数据管理系统(DBMS)和数仓系统(DW)也在悄然的变化着。 传统应用的数据系统架构设计时,应用直接访问数据库系统。当用户访问量增加时,数据库无法支撑转载 2021-03-02 11:24:26 · 866 阅读 · 0 评论 -
TiDB和GreenPlum -- 总参
参考文章:了解TiDB基础入门Clickhouse,TiDB,Greenplum哪个更适合作为AWS redshift 的替代品?原创 2020-02-12 14:54:36 · 2490 阅读 · 0 评论 -
MPP-大规模并行处理简介
参考文章:MPP-大规模并行处理简介MPP(大规模并行处理)1、 什么是MPP?MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数...转载 2019-12-19 14:24:38 · 447 阅读 · 0 评论 -
行式存储和列式存储优缺点和paruqet文件结构
参考文章:行式存储和列式存储优缺点和paruqet文件结构一、列式存储和行式存储的比较列式存储和行式存储是针对数据在存储介质中的排序形式而言的,假设存在一张table,那么:行式存储:依次连续存储第1、2、3...行的数据到存储介质中; 列式存储:依次连续存储第1、2、3...列的数据到存储介质中。图1-1所示为行式存储和列式存储的示意图,一张table包含5个字段(列)即rowid、date/time、customer name以及quantity,共7行,图中的红色箭头表示存储顺序转载 2020-06-11 17:59:45 · 6790 阅读 · 0 评论 -
Hive、HBase、Impala的简单对比
1. 什么是实时分析(在线查询)系统?大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点:a. 时延低(秒级别)。b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。c. 查询范围大(通常查询表记录在几十亿级别)。d. 返回结果数小(几十条甚至几千条)。e. 并发数要求高(几百上千同时并发)。f...转载 2018-05-16 14:33:32 · 1253 阅读 · 0 评论 -
impala实现HBase数据查询
由于工作需要,现在需要使用Cloudera Manager的Impala实现大批量数据的查询统计功能。于是,在前面使用Hbase和solr搭建的平台完成最高院的全文检索平台,继续在clouderaManager原有的hadoop平台基础上继续进行更深层次的研究和应用。基于某些地方法院对于数据的要求不一致,有的客户针对于法律文书的全文检索,有的客户针对于当前某种类型案件的统计,因此原有的Hbase+...转载 2018-05-16 14:32:26 · 6263 阅读 · 0 评论 -
impala查询hbase库方法
一、 概述 Hbase数据库是一种列存储数据库,以方式查询相应的数据,通常查询hbase库的数据,需要用get、scan命令通过行健查询相关数据 二、 建立petabase到hbase的数据表映射 1、 创建hive的外部表 在任意节点root用户下,执行hive,进入hive命令行模式,执行以下建立外部表语句: CREATE external TABLE qgws_hive(key string...转载 2018-05-16 14:31:20 · 1128 阅读 · 0 评论 -
IaaS、PaaS、SaaS、BaaS和FaaS, 这些区别你真的了解吗?
参考文章:IaaS、PaaS、SaaS、BaaS和FaaS, 这些区别你真的了解吗?IaaS、PaaS、SaaS、BaaS、FaaS,这些名词后面都带着aas三个字母,aas 是 As-a-Service,即为服务的意思。我们看下面这个架构图:IaaS、PaaS、SaaS云平台一般都会提供以上架构图中的三种云服务IaaS:Infrastructure as a Service(基础设施即服务)从上面的架构图可以看出,IaaS处于最底层,服务商提供底层/物理层基础设施资源(服务器,数据中转载 2020-07-03 10:58:07 · 2311 阅读 · 0 评论 -
MapReduce和Tez对比
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"。Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuff...转载 2019-07-15 09:10:32 · 1633 阅读 · 0 评论 -
TPC-DS介绍
参考文章:TPC-DS介绍TPC-DS介绍TPC-DS是一个面向决策支持系统(decision support system)的包含多维度常规应用模型的决策支持基准,包括查询(queries)与数据维护。此基准对被测系统(System Under Test’s, SUT)在决策支持系统层面上的表现进行的评估具有代表性。此基准体现决策支持系统以下特性:测试大规模数据 对实际商业问题进行解答 执行需求多样或复杂的查询(如临时查询,报告,迭代OLAP,数据挖掘) 以高CPU和IO负载为原创 2020-06-19 16:38:26 · 6449 阅读 · 0 评论 -
用户画像常用算法
决策树1、决策树,是一种分类算法和回归算法(这里只介绍分类算法)2、决策树算法的构建分为3个部分:特征的选择,决策树的生成,决策树的剪枝;(主要参考李航的《统计学习方法》第五章) a、特征的选择—-选择使信息增益最大的特征;即选择一个分类特征必须是分类确定性更高,此特征才是更好的; b、决策树的生成—ID3,C4.5算法,此时用迭代的方式构建决策树;注意此时的决策树,因为每次选的都是局部最优解,所以是过拟合的; c、决策树的剪枝—决策树剪枝是为了防止过拟合,根据全局c...转载 2020-06-17 10:55:12 · 4079 阅读 · 0 评论 -
推荐系统简介
参考文章:推荐系统之用户画像1. 推荐系统简介推荐系统是数据挖掘的一个重要部分,能够实现海量数据信息的快速、全面、准确过滤。推荐系统是信息过滤系统的一个子集。用Spark平台设计了一个基于物品的协同过滤(Item-CF)算法的商品推荐系统,并将其应用在Movie Lens数据集上运行测试。通常大型推荐系统一般都分为召回和排序两个阶段。因为全量物品(Item)通常数量非常大,无法为一个用户(User)逐一计算每一个物品(Item)的评分,这时候就需要一个召回阶段,其实就是预先筛选一部分物品转载 2020-06-15 18:00:21 · 655 阅读 · 0 评论 -
用户画像简介
参考文章:推荐系统——用户画像1. 用户画像1.1 用户画像定义用户画像:也叫用户信息标签化、客户标签;根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。从电商的角度看,根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品,包括但不仅限于用户的注册资料、原创 2020-06-15 15:49:21 · 3855 阅读 · 0 评论 -
parquet 简介
参考文章:parquet 简介Parquet原理【2019-05-29】Parquet简介Apache Parquet是一种能够有效存储嵌套数据的列式存储格式。面向分析型业务的列式存储格式由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目。Parquet源码 :https://githu...原创 2020-04-28 11:29:59 · 977 阅读 · 0 评论 -
分布式大数据SQL查询引擎--Presto
PRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。它可以做什么?Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。 一条Presto查询可以将多个数据源的数据进...转载 2020-04-21 16:34:59 · 425 阅读 · 0 评论 -
关于kerboros
参考文章:kerberos使用手册(常用命令)Kerberos 简介转载 2020-04-07 11:18:45 · 338 阅读 · 0 评论 -
CDH 是什么
参考文章:集群、全文检索、大数据(Hadoop)一、痛点一个产品的出现肯定是为了解决用户的痛点,在大数据领域,我们这些使用Hadoop、Hive、Hbase等的开发者来说就是其用户。如果使用原生的Apache Hadoop,在工作中我总结出了如下痛点(部分):集群规模很庞大时搭建Hadoop集群复杂度越来越高,工作量很大 规模很大的集群下升级Hadoop版本很费时费力 需要自己保证...转载 2020-02-11 14:46:16 · 1289 阅读 · 0 评论 -
开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)
参考文章:开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO 郭炜 序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Gr...转载 2020-02-06 23:01:42 · 1589 阅读 · 1 评论 -
impala presto SparkSql性能测试对比
参考文章:impala presto SparkSql性能测试对比目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍impala与presto性能相当,SparkSql逊色不少。目前看presto相比impala与hive实时共享元...转载 2019-12-23 14:49:19 · 660 阅读 · 0 评论