大数据
githubshareing
给自己的人生留下点脚印
展开
-
Apache Doris在美团外卖数仓中的应用实践
https://tech.meituan.com/2020/04/09/doris-in-meituan-waimai.html转载 2020-11-17 15:06:34 · 401 阅读 · 0 评论 -
tidb 与 doris 性能对比
说明doris 未使用 物化视图,使用的是聚合类型动态分区表。tidb 未使用分区表数据量7800w步骤doris 建表语句:CREATE TABLE `biz_cms_flow_v4` ( `dt` date NULL COMMENT "", `dn` int(11) NOT NULL COMMENT "站点1-acc 2-jianshe 3-med", `addtime` int(11) NOT NULL COMMENT "添加时间", `adduser` varch原创 2020-11-12 14:26:21 · 5442 阅读 · 2 评论 -
Structured Streaming(阿里 云魄 直播视频记录)
文章目录Structured Streaming 简介流式处理理的难点Structured Streaming特点工作原理micro-batch 处理模式continuous处理理模式exactly once - sourceexactly once - sink 容错exactly once -- state store 容错Spark 2.4新特性Stateful 操作分类groupby操作s...原创 2019-06-08 15:35:42 · 655 阅读 · 0 评论 -
Spark Streaming 编程指南(2.4.3)
文章目录概述概述翻译 2019-06-02 14:57:38 · 1296 阅读 · 0 评论 -
Spark SQL,DataFrames和Datasets Guide (spark 2.4.3)
文章目录概述SQLDatasets and DataFramesDatasetsDataFrames开始SparkSession创建DataFrameDataFrame操作备注概述Spark SQL是Spark的一个组件,用于结构化数据的计算。与基本Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据和正在执行的计算的结构的更多信息。在内部,Spark使用这些...翻译 2019-05-29 19:39:14 · 436 阅读 · 0 评论 -
RDD 编程指南(spark2.4.3)
文章目录概述连接SparkSpark 初始化使用shell弹性分布式数据集(RDD)并行化集合(Parallelized Collections)外部数据集(External Datasets)RDD操作简单解释理解闭包本地与群集模式打印RDD的元素TransformationsactionsShuffle 操作背景性能影响RDD持久性选择哪种存储级别?删除数据共享变量广播变量累加器概述在较高...原创 2019-05-26 18:21:05 · 916 阅读 · 0 评论 -
ElasticSearch 进行拼写纠错
代码GET so_blog/_search{ "size": 0, "suggest": { "text": "jeva null point exception", "my-suggestion": { "phrase": { "field": "title", "confidence": 0, "collate": {...原创 2019-05-22 15:49:08 · 3896 阅读 · 0 评论 -
Spark(2.4.3) 快速开始
使用Spark Shell进行交互式分析基本Spark的shell提供了一种学习API的简单方法,以及一种以交互方式分析数据的强大工具。它可以在Scala(在Java VM上运行,因此是使用现有Java库的好方法)或Python中使用。通过在Spark目录中运行以下命令来启动它:./bin/spark-shellSpark的主要抽象是一个名为Dataset的分布式项目集合。可以从Hado...原创 2019-05-26 00:28:24 · 1180 阅读 · 0 评论 -
HBase基本数据操作详解
概述对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。对于数据操作,HBase支持四类主要的数据操作,分别是:Put :增加一行,修改一行;Delete :删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等;Get :获取指定行的所有信息,获取指定行和指定列族的所有c...原创 2019-05-12 22:26:09 · 969 阅读 · 0 评论 -
OpenSearch 讲解
文章目录什么是OpenSearchOpen Search 和 Elastic Search对比open searchElasticSearch对比数据准备Open Search 的创建我们对Open Search的使用API 分类搜索方式目前在用的产品遇到的问题什么是OpenSearch开放搜索(OpenSearch)是一款结构化数据搜索托管服务,为移动应用开发者和网站站长提供简单、高效、稳定...原创 2019-05-15 18:24:37 · 27895 阅读 · 4 评论 -
HDFS 详解
HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务l 重点概念:文件切块,副本存放,元数据HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,...原创 2019-05-05 20:17:48 · 487 阅读 · 0 评论