![](https://img-blog.csdnimg.cn/20200225222201899.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
关于大数据的一切,我们慢慢聊
明日江郎
技术立身
展开
-
技.艺.道:spark常见问题整理
一、数据倾斜数据倾斜、热点问题这两种称呼描述的都是同一个问题:数据分布不均匀。为什么不均匀就会成为一个问题?回溯分布式计算的初衷是这样一个情景:每个节点的数据和算力都是均衡分布的,也就是说,每个节点存储的数据量都差不多,具有的算力也都差不多。然而在一次实际的计算中参与计算的数据在集群中的分布往往是这样的:.........原创 2022-06-23 17:04:58 · 226 阅读 · 0 评论 -
技.艺.道:“地摊经济”话“HDFS文件读写”
一、HDFS组件介绍由于这是一篇原创文章,为了保证其原创性(和权威性),我不得不亲手从官网截来一张图:Namenode:名称节点,作为master,负责namespace管理(其实就是目录结构,这也是叫“namenode的原因”),block管理(其中包括 filename->block,block->datanode list的对应关系)Datanodes:数据节点,作为slave,负责数据的具体存储Client:客户端,作为数据读写请求的发起方。讲到这里,忍不住要作图原创 2020-06-11 16:27:04 · 242 阅读 · 0 评论 -
Apache-Tez(阿帕奇太子)初识
先看官网介绍:地址在这:https://tez.apache.org/介绍ApacheTEZ®项目旨在构建一个应用程序框架,该框架允许使用复杂的有向无环图来处理数据。它当前构建在Apache Hadoop YARN之上。Tez的2个主要设计主题是:通过以下方式增强最终用户的能力: 富有表现力的数据流定义API 灵活的输入-处理器-输出运行时模型 不可知数据类型 ...原创 2020-04-10 15:33:36 · 593 阅读 · 0 评论 -
阿里Canal部署安装小白教程
1.下载canal安装包: 地址:https://github.com/alibaba/canal/releases 2.将下载好的安装包复制到主机 3.使用命令进行安装 进入安装目录:cd /home/hadoop/test/lele 创建canal存放目录:mkdir canal 进入创建好的目录:cd canal 解压安装包:tar -zxvf ../canal.dep原创 2017-08-07 14:26:37 · 21967 阅读 · 2 评论 -
技.艺.道:elasticsearch常用搜索方法详解
零、提要1.简单的搜索方式:query string search2.强大的搜索方式:query DSL3.搜索中的过滤:query filter4.全文搜索:full-text search5.部分内容搜索:phrase search6.高亮搜索:highlight search一、准备环境准备:见上一篇《技.艺.道:elasticsearch概念梳理及...原创 2019-07-04 17:06:00 · 240 阅读 · 0 评论 -
技.艺.道:elasticsearch概念梳理及基础操作
我想,既然你来看这篇文章了,那么应该不用告诉你ElasticSearch是用来做什么的了。如果你是无意中看了这篇文章,那我也要对你负责。告诉你这篇文章要介绍的对象是谁,它就是ElasticSearch。后面简称ES。一个基于文档的分布式搜索分析框架。当前主流的分布式框架具有的属性,它基本上都有,如高性能,高可用。下面我们进入正题,介绍ES中的概念。我们采用MAP的方式来表述。即A:XX...原创 2019-07-01 13:41:34 · 150 阅读 · 0 评论 -
技.艺.道:phoenix数据的导入与导出
前言Apache.Phoenix官方口号是:We put the SQL back in NoSQL.以HBASE作为其数据存储基础。更通俗的说法是:phoenix是HBASE的SQL引擎。为本不支持标准SQL语法的NoSQL数据库服务HBase提供了一个用SQL语言交互的入口,降低了使用门槛,拓宽了HBASE的使用范围。基于phoenix和hbase可以在一定的硬件基础上,获得一个“超级My...原创 2019-07-16 17:28:42 · 2463 阅读 · 0 评论