大数据
^果然好^
这个作者很懒,什么都没留下…
展开
-
AB test
AB Test转载 2022-06-07 14:03:23 · 223 阅读 · 0 评论 -
模型设计参考(阿里云)
转至:https://help.aliyun.com/document_detail/126973.html?spm=a2c4g.11186623.6.587.7e09307b3dYdtz原创 2021-07-05 13:58:36 · 124 阅读 · 0 评论 -
辨析数仓、大数据、数据中台的实质(内附21张架构图)
转自:https://mp.weixin.qq.com/s/UpaX18_h2NnydO3u2hSxlQ原创 2020-12-30 10:36:16 · 188 阅读 · 0 评论 -
MySQL Explain详解以及优化
转自:https://www.cnblogs.com/tufujie/p/9413852.html原创 2019-07-19 14:13:36 · 90 阅读 · 0 评论 -
数据同步FlinkX和DataX
DataX是一个单机同步工具,核心底层通道的分布式支持不友好。FlinX补充了DataX的短板,详见Flink 数据同步先行者- FlinkX原创 2020-09-28 14:31:20 · 4417 阅读 · 0 评论 -
离线和实时大数据开发实战-笔记
转载:https://blog.csdn.net/yidan7063/category_9569417.html转载 2019-12-10 09:08:33 · 297 阅读 · 1 评论 -
Neo4j图形数据库教程
史上最全面的Neo4j使用指南原创 2020-11-14 09:39:06 · 1055 阅读 · 0 评论 -
使用 Canal Admin 搭建 Canal 集群
转自:Canal Admin 搭建 Canal 集群以及体验原创 2020-09-16 11:05:27 · 488 阅读 · 0 评论 -
数据库设计架构-share_nothing、share_memory、share_disk
share-memory: 多个cpu共享同一片内存,cpu之间通过内部通讯机制(interconnection network)进行通讯;share-disk: 每一个cpu使用自己的私有内存区域,通过内部通讯机制直接访问所有磁盘系统。Share-nothing: 每一个cpu都有私有内存区域和私有磁盘空间,而且2个cpu不能访问相同磁盘空间,cpu之间的通讯通过网络连接。shared memory 体系结构的cpu之间通过主存进行通讯,具有很高的效率;但当更多的cpu被添加到主机上..原创 2020-07-30 11:18:58 · 1061 阅读 · 0 评论 -
数据库-行存储及列存储区别
参考:https://blog.csdn.net/Xingxinxinxin/article/details/80939277目录概述什么是列存储?在数据写入上的对比在数据读取上的对比优缺点列存储的适用场景最后总结如下概述目前大数据存储有两种方案可供选择:行存储(Row-Based)和列存储(Column-Based)。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量原创 2020-07-30 10:37:45 · 3153 阅读 · 0 评论 -
大数据新时代:基于Flink的实时数仓架构-学习笔记(下)
目录Flink+实时数仓实时数仓架构Flink+实时数仓实时数仓架构原创 2020-03-17 23:45:44 · 1623 阅读 · 0 评论 -
大数据新时代:基于Flink的实时数仓架构-学习笔记(中)
目录离线数据仓库实时数据仓库离线数据仓库ODS:原始数据DWD:详细数据DWS/DM:数据汇总层/数据集市层data markerAPP/ADS:数据应用层实时数据仓库但是会遇到一些问题,什么问题呢?这是实时数仓就进场了:...原创 2020-03-17 23:27:34 · 1307 阅读 · 0 评论 -
大数据新时代:基于Flink的实时数仓架构-学习笔记(上)
参考视频:【黑马程序员】大数据新时代:基于Flink的实时数仓架构大数据应用数据运营、用户画像、推荐系统、金融风控、机器学习、数据挖掘.....大数据的业务流程大数据的技术学习路线大数据的本质...原创 2020-03-17 23:07:02 · 1238 阅读 · 0 评论 -
四代大数据计算引擎
参考:https://www.cnblogs.com/frankdeng/p/9400622.html这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flin...原创 2020-02-21 20:44:12 · 671 阅读 · 0 评论 -
Hive基本操作
Hive基本操作Hive学习笔记总结01.Hive是什么1. Hive介绍Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。2. Hive架构用户接口,包括 CLI,JDBC/ODBC,WebUI 元数据存储,通常是存储在...转载 2019-03-29 17:55:31 · 189 阅读 · 0 评论 -
MapReduce
MapReduce本质上就是方法三,但是如何拆分文件集,如何copy程序,如何整合结果这些都是框架定义好的。我们只要定义好这个任务(用户程序),其它都交给MapReduce。MapReduce伪代码实现Map和Reduce两个函数Map函数和Reduce函数是交给用户实现的,这两个函数定义了任务本身。Map函数接受一个键值对(key-value pair),产生一组中间键值对。...转载 2019-03-29 18:02:48 · 148 阅读 · 0 评论 -
zookeeper-常用命令
服务端开启./kafka-server-start.sh ../config/server.properties &客户端开启zkCli.sh -server 192.168.10.10:2181查看所有的命令 help查看当前节点所有的值 ls /查看当前节点的值 ls2 /获取某个节点的值 get /节点名...原创 2019-04-28 17:29:20 · 89 阅读 · 0 评论 -
阿里云StreamCompute流计算架构
下图为阿里云流计算全流程系统架构,主要包含:数据采集,流数据,流计算,数据源,数据消费这些过程。数据采集用户可以使用流式数据采集工具将数据流式且实时地采集并传输到大数据Pub/Sub系统,该系统将为下游流计算提供源源不断的事件源去触发流式计算作业的运行。阿里云大数据生态中提供了诸多针对不同场景领域的流式数据Pub/Sub系统,以方便用户可以集成各类流式数据存储系...原创 2019-06-20 17:48:11 · 2920 阅读 · 0 评论 -
【基本知识】Flume基本环境搭建以及原理(转)
系统:CentOS6.5JDK:1.8.0_144Flume:flume-ng-1.6.0-cdh5.12.0一、什么是Flume flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume...转载 2019-03-13 11:26:02 · 179 阅读 · 0 评论