自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 NodeManager专区-节点健康状况监测

节点健康监测是NodeManager自带的健康状况诊断机制,通过该机制,NodeManager可时刻掌握自己的健康状况,并及时汇报给ResourceManager。而ResourceManager则根据每个NodeManager的健康状况适当调整分配的任务数目。当NodeManager认为自己的健...

2020-03-31 23:15:36 114 0

原创 NodeManager专区-NodeManager的基本特性和概述

概述        NodeManager是运行在单个节点上的代理,它需要与应用程序的ApplicationMaster和集群的管理节点ResourceManager交互:从ApplicationMaster上接收有关的container的命令并执行;向Re...

2020-03-29 23:11:39 86 0

原创 clickhouse数据类型

1、数据类型 ClickHouse 可以在数据表中存储多种数据类型。 1、UInt8, UInt16, UInt32, UInt64, Int8, Int16, Int32, Int64 固定长度的整型,包括有符号整型或无符号整型 整型范围 Int8 - [-128 : 127] Int16 - ...

2020-03-18 23:35:29 330 0

原创 解决clickhouse裸奔问题

上次安装完成以后,遗漏了3个问题 1、查看集群信息为什么会出现这么多test的集群 2、用户鉴权问题 3、如何放开连接的IP地址 问题1: 查看集群信息为什么会出现这么多test的集群。 只需要将/etc/clickhouse-server/config.xml配置文件中的test注释就可以了再次...

2020-03-16 00:30:57 231 0

原创 clickhouse集群部署

clickhouse 版本的安装 版本:20.1.6.30-2 环境:CentOS release 6.5 **安装指南: ** 1、分别在每台集群上面执行下面的命令安装 sudo yum install yum-utils sudo rpm --import https://repo.yande...

2020-03-11 00:12:34 414 0

原创 行式和列式存储说明以及OLAP特点介绍

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 在传统的行式数据库系统中,数据按如下顺序存储: Row WatchID JavaEnable Title GoodEvent EventTime #0 89354350662 1 Investor...

2020-03-08 21:45:30 259 0

原创 Clickhouse的前世今生和优缺点

ClickHouse最初是为 Yandex.Metrica 世界第二大Web分析平台 而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统在ClickHouse中有超过13万亿条记录,并且每天超过200多亿个事件被处理。它允许直接从原始数据中动态查询并生成报告 聚合与非聚合...

2020-03-08 21:42:52 1031 0

原创 再次认识clickhouse

clickhouse 版本的安装 版本:20.1.6.30-2 环境:CentOS release 6.5 安装指南: 1、分别执行下面几步 sudo yum install yum-utils sudo rpm --import https://repo.yandex.ru/clickhouse...

2020-03-08 00:33:37 258 0

原创 HBase中wal文件过多导致Zookeeper异常问题

最近hbase出现了大量KeeperErrorCode = ConnectionLoss for /hbase/splitWAL 异常,而且在重启hbase的时候,没有办法启动hbase,经过仔细诊断之后发现是由于hbase的WAL文件非常多(达到30TB),导致hbase在zk的节点(存储WAL...

2019-12-04 13:19:05 265 0

原创 top命令讲解

top命令经常用来监控Linux的系统状态,如CPU、内存的使用情况 各个参数的含义: 第一行 : 08:03:50 -当前系统时间;366 days,12:33-系统已经运行了366天12小时33分钟;25 users表示当前有25个用户登录系统;load average:0.18,0.20,0...

2019-11-06 07:45:52 59 0

原创 理解Linux调优参数

1、处理器参数 **CPU utilization:**直观地描述了每个CPU的利用率,在Xseries架构中如果CPU的利用率长时间超过80%,就有可能出现处理器的瓶颈 **Runable processes :**描述了正在准备被执行的进程。在一个持续时间里,这个值不应该超过物理CPU数量的1...

2019-10-29 08:43:06 62 0

原创 Hadoop任务操作命令

HADOOP 上经常会对一个application进行一系列操作: 操作命令如下: yarn application -list 查看yarn上面所有的application yarn application -list -appStates RUNNING 查看 yarn上面真正run...

2019-10-14 08:13:31 92 0

原创 NameNode和DataNode之间的交互

简介 HDFS的设计核心是提高处理数据的吞吐量而不是低延迟,因此更适合数据的批处理,而非交互式处理,HDFS弱化了一些POSIX语义以获求吞吐量提升。HDFS对存储在其上的数据使用了一次写入多次读取的文件控制模型,一旦一个文件被写入并且存储到HDFS系统上,只可以追加写入该文件而不能修改,从而达到...

2019-10-09 08:28:38 354 0

原创 Hadoop运行过程中错误解决

错误信息:Container [pid=64555,containerID=container_1563447435119_3196879_01_000107] is running beyond physical memory limits. Current usage: 3.4 GB of 3...

2019-10-08 08:15:50 49 0

原创 linux随机数据

1、Linux uuid uuid 全称是通用唯一识别码,格式包含32个16进制数字,以’-'连接号分为5段。形式为8-4-4-4-12 的32个字符 cat  /proc/sys/kernel/random/uuid   [root@SZD-L0...

2019-10-08 08:11:00 46 0

原创 Python中socket遇到的几个问题

今天在进行一些简单的socket编程的时候,遇到了几个问题 1、AttributeError: module ‘socket’ has no attribute ‘AF_INET’ 上面是socket编程的时候脚本名字就是socket出现了关键字 2、TypeError: a bytes-like...

2019-06-23 23:39:19 95 0

原创 Druid在Hadoopindex的时候异常

Caused by: com.google.inject.CreationException: Unable to create injector, see the following errors: 1) An exception was caught and reported. Messag...

2019-03-10 23:00:25 759 0

原创 druid.io在安装过程出现元数据库异常问题

在我们启动coordinator的时候用来刷新元数据库,但是发现出现表刷入失败,可以在日志里查看到字符编码问题 可以使用mysql的修改字符编码,这个地方和官网的字符编码有点不一样 ALTER DATABASE druid DEFAULT CHARACTER SET utf8 COLLATE ut...

2019-02-26 00:43:07 325 0

原创 SparkContext原理解析和源码解析

SparkContext主要介绍下面几个点 TaskScheduler DAGScheduler SparkUI 环境是spark1.6.3 TaskScheduler初始化机制 createTaskScheduler() ->TaskSchedulerImpl-&gt...

2019-01-27 23:01:52 153 0

原创 Spark内核架构解析

本文主要介绍了spark运行的大概流程。已经每个组件大概做了什么工作 1、Spark-submit提交的时候有多种方式,其实会通过反射的方式,创建和构造一个DriverActor进程出来 2、在构造SparkContext的时候,构造出DAGScheduler和TaskScheduler 3、D...

2019-01-24 23:32:13 140 0

原创 Spark中topN和groupTopn讲解

Spark中topN和groupTopn讲解说谎和沉默可以说是现在人类社会里日渐蔓延的两大罪恶。事实上,我们经常说谎,动不动就沉默不语。——村上春树本文主要介绍了Spark中去topN的操作和分组取topN的操作topN的实现思路:1、首先我们需要采用PairRDD的方式来存储数据对象,PairR...

2019-01-14 01:26:25 562 0

原创 Spark二次排序的操作

二次排序原理 二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 例如输入这样的文件, xlucas1 18 aa xlucas2 18 bb xlucas 19 cc aa 20 xlucas aa 17 xlucas xlucas1 17 ...

2019-01-03 00:24:31 131 0

原创 Spark排序--交换排序

之前我们写过简答的worldcount统计的代码,但是我们如何做到按照value来排序呢?? 伪代码如下 // 执行我们之前做过的单词计数 JavaRDD<String> lines=line.flatMap(new FlatMapFunctio...

2018-12-28 23:32:05 156 0

原创 Spark共享变量

        Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task...

2018-12-24 00:51:11 713 0

原创 RDD持久化原理

          Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节...

2018-12-23 23:40:08 322 0

原创 Spark中Action的讲解

主要讲解一下 reduce,collect,count,take,saveAsTextFile,countByKey reduce讲解 // 使用reduce操作对集合中的数字进行累加 // reduce操作的原理: // 首先将第一个和第二个元素...

2018-12-22 00:06:41 323 0

原创 Spark中Transformation的讲解

主要讲解一下 map,filter,flatMap,groupByKey,reduceByKey,sortByKey,join,cogroup map讲解 List<Integer> list= Arrays.asList(1,2,3,4,5,6,...

2018-12-21 00:27:22 202 0

原创 创建RDD创建方式

RDD的创建方式 1、集合创建RDD 2、使用本地文件创建RDD 3、使用HDFS文件创建RDD 集合创建RDD 1、如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据...

2018-12-17 01:05:59 304 0

原创 Spark本地worldcount详细讲解(Scala版本)以及流程

主要介绍Scala来写spark代码的流程 package com.xlucas import org.apache.spark.SparkConf import org.apache.spark.SparkContext /** * Created ...

2018-12-16 15:11:23 479 1

原创 Spark本地worldcount详细讲解(Java版本)

package com.xlucas; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; impor...

2018-12-12 23:37:44 304 0

原创 Spark核心编程原理

2018-12-11 23:54:05 133 0

原创 Flink部署-standalone模式

安装环境信息 flink-1.6.2-bin-hadoop27-scala_2.11.tgz hadoop-2.7.5 java 1.8 zookeeper 3.4.6 os:centos 6.4 1、下载 直接去flink的社区下载就可以了。http://flink.apache.org/do...

2018-11-30 00:07:41 2969 0

原创 ES中搜索请求的讲解

ES中一个搜索请求是怎么流转的 1、搜索请求发送到某一个coordinate node,构建一个priority queue,长度以paging操作from和size为准,默认为10 2、coordinate node将请求转发到所有shard,每个shard本地搜索,并构建一个本地priorit...

2018-11-18 22:48:18 924 0

原创 Apache Flink介绍

什么是Flink Flink 它可以处理有界的数据集、也可以处理无界的数据集、它可以流式的处理数据、也可以批量的处理数据。所谓的无穷数据集就是我们日常中所说的实时数据,比如金融市场的实时交易记录,web的实时访问记录,所谓的有界数据集就是一些有限不会改变的数据集合,所以flink数据运算模型有流...

2018-11-16 23:53:07 133 0

原创 ES中scroll技术

如果一次性要查询出一大批的数据,那么性能会很差,此时一般采用scoll滚动查询,一批一批的查询,直到所有的数据查询完成 使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来 scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧...

2018-11-16 00:41:38 1906 0

原创 ES分词算法

算法介绍 1、relevance score算法,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 2、ES使用的是,term frequency/inverse document frequency算法,简称TF/IDF算法 3、term frequency:搜索文本中的各个词条...

2018-11-15 23:34:07 1379 0

原创 ES字符串排序问题

如果对一个text field进行排序,结果往往不准确,因为分词后是多个单词,再排序就不是我们想要的结果了 通常解决方案是,将一个text field建立两次索引,一个分词,用来进行搜索;一个不分词,用来进行排序 创建索引 在ES6中没有String类型了,如果是不能被检索需要定义为keyword...

2018-11-14 00:13:12 2926 0

原创 ES的查询接口

1、什么是query DSL GET /_search { "query": { "match_all": {} } } query 中有哪些query_name 全部查询出来 match all GET /web/info...

2018-11-11 00:38:51 2610 0

原创 ES中mapping讲解

注意:以下都是基于ES6操作的 准备数据 PUT /web/info/1 { "post_date": "2018-11-01", "title": "the first info", "co...

2018-11-08 22:16:08 2792 0

原创 ES中search中参数讲解

1、搜索出来的一大堆参数,每个参数具体是什么意思 took:表示整个搜索请求花费了多少毫秒 hits.total:本次搜索,返回了几条结果 hits.max_score:本次搜索的所有结果中,最大的相关度分数是多少。每一条document对于search的相关度,越相关,_score分数越大,排位...

2018-11-07 23:07:06 1815 0

提示
确定要删除当前文章?
取消 删除