自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

转载 Redis(缓存)

redis缓存机制:缓存中的数据,一定是数据库中的数据,使用缓存主要的目的就是降低用户访问物理设备的频次.如果数据库记录更新,则缓存应该同步更新.

2022-10-20 22:54:32 225

转载 关于ES性能调优几件必须知道的事

零)ElasticSearch架构概述ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的插件会给ES的搜索和分析起到很大的推动作用。Elas...

2019-03-15 17:42:42 4106

转载 elasticsearch5.x集群HA原理(shards、replicas)

最近在搭建es5.2的高可用集群,在这个过程中加深了对es的原理理解,基本分为四个阶段es单机—>es集群(多台机器)—>es分片和副本集分布原理—>es高可用集群1.es单机在第一个阶段基本概念的掌握还是比较熟练的,对应着关系型数据库(mysql)来理解es:文档(document)文档(document)是ElasticSearch中的存储形式。对所有...

2019-03-12 18:35:46 932

原创 ElasticSearch怎样设置 master、data 和 client 节点

在生产环境下,如果不修改elasticsearch节点的角色信息,在高数据量,高并发的场景下集群容易出现脑裂等问题。  默认情况下,elasticsearch 集群中每个节点都有成为主节点的资格,也都存储数据,还可以提供查询服务。这些功能是由两个属性控制的。    1. node.master    2. node.data  默认情况下这两个属性的值都是true。  node.m...

2019-01-05 23:57:42 10142 2

原创 ElasticSearch增删该查Linux下命令大全

我们通常用用_cat API检测集群是否健康。 确保9200端口号可用:  curl 'localhost:9200/_cat/health?v'   绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用.   2.通过如下语句,我们可以获取集群的节点列表:  curl 'localhost:9200/_cat/nodes?v...

2018-12-26 20:11:48 1947

转载 Elasticsearch —— bulk批量导入数据

在使用Elasticsearch的时候,一定会遇到这种场景——希望批量的导入数据,而不是一条一条的手动导入。那么此时,就一定会需要bulk命令!更多内容参考我整理的Elk教程bulk批量导入批量导入可以合并多个操作,比如index,delete,update,create等等。也可以帮助从一个索引导入到另一个索引。语法大致如下;action_and_meta_data\n...

2018-12-03 17:13:22 987

原创 Linux下mysql彻底卸载

一、使用以下命令查看当前安装mysql情况,查找以前是否装有mysql? 1 rpm -qa|grep -i mysql 可以看到如下图的所示:显示之前安装了:     MySQL-client-5.5.25a-1.rhel5     MySQL-server-5.5.25a-1.rhel52、停止mysql服务、删除之前安装的m...

2018-11-15 15:02:00 173

转载 KUDU--秒级查询的数据仓库

## == Kudu 是什么 == Kudu是Todd Lipcon@Cloudera带头开发的存储系统,其整体应用模式和HBase比较接近,即支持行级别的随机读写,并支持批量顺序检索功能。 那既然有了HBase,为什么还需要Kudu呢,简单的说,就是嫌弃HBase在OLAP场合,SQL/MR类的批量检索场景中,性能不够好。通常这种海量数据OLAP场景,要不走预处理的路,比如像EB...

2018-11-05 16:44:43 1939

原创 ElasticSearch分页查询详解-----------深度分页(from-size)和快照分页(scroll)

  Elasticsearch中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回。那么,如何实现分页查询呢?       按照一般的查询流程来说,如果我想查询前10条数据:        1)客户端请求发给某个节点        2)节点转发给个个分片,查询每个分片上的前10条        3)结果返回给节点,整合数据,提取前10条        4...

2018-09-20 20:11:00 3341

原创 ElasticSearch底层原理浅析

基本概念索引(Index)ES将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说,索引相当于SQL中的一个数据库,或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。类型(Type)类型是索引内部的逻辑分区(categ...

2018-09-20 10:55:42 5172

原创 Elasticsearch工作原理

一、关于搜索引擎各位知道,搜索程序一般由索引链及搜索组件组成。索引链功能的实现需要按照几个独立的步骤依次完成:检索原始内容、根据原始内容来创建对应的文档、对创建的文档进行索引。搜索组件用于接收用户的查询请求并返回相应结果,一般由用户接口、构建可编程查询语句的方法、查询语句执行引擎及结果展示组件组成。著名的开源程序Lucene是为索引组件,它提供了搜索程序的核心索引和搜索模块,例...

2018-09-18 18:07:37 264

原创 windows10下安装oracle11g和PLSQL Developer

工具/原料 oracle11g安装包(64位) oracle11g客户端(32位) PLSQL Developer安装包 方法/步骤 1 在Oracle官网下载安装包,下载后,得到的文件如图所示: 2 将两个文件进行解压缩,得到目录如图所示: 3 双击setup.exe,系统将会进行自检,若提示[INS-13001]环...

2018-09-15 21:51:23 1483 1

转载 Elasticsearch使用REST API实现全文检索

Elasticsearch使用REST API实现全文检索Elasticsearch REST APIelasticsearch支持通过http请求响应服务,http请求默认使用9200断开,因此通过curl命令,可以发送http请求,并得到json返回内容。常用的REST API包括一下几个:检查ES集群状态curl http://localhost:9200/_cat/hea...

2018-09-12 15:59:19 378

原创 logstash-input-jdbc 同步原理及定时器

定时器: 多久执行一次SQL,默认是一分钟  # schedule =>    分 时 天 月 年  # schedule => * 22  *  *  *     表示每天22点执行一次 schedule => "前言:基于logstash-input-jdbc较其他插件的稳定性、易用性、版本和ES同步更新的特点,以下研究主要针对 logstash-input-...

2018-08-29 17:00:12 5184 1

原创 Win7 64位系统U盘安装Centos6.5双系统

安装前准备:  U盘、软碟通(UltraISO)、CentOS-6.5-x86_64-bin-DVD1(DVD 2只是一些软件,安装系统只要DVD1就可以) 设置安装Centos的磁盘位置:  应该单独分出一块逻辑盘来安装Centos系统,逻辑盘的意思就是常规定义上的C盘、D盘、E盘、F盘,可以用一些磁盘分区软件设置一个差不多大小的F空盘用来安装Centos系统; 将Cen...

2018-08-13 18:50:08 291

原创 Linux下安装Elasticsearch5.X

下载Elasticsearch  登录官网 https://www.elastic.co/cn/downloads  选择下载elasticsearch,根据需要选择对应的安装包,这里选择5.0版本,下载完后得到 elasticsearch-5.0.0.tar.gz解压安装  将 elasticsearch-5.0.0.tar.gz 拷贝到 /opt 目录下。  在Linux中...

2018-08-10 14:11:27 422

转载 greenplum使用gpfdist与外部表高效导入数据教程

greenplum作为OLAP分析型软件,自然避免不了从外部数据库加载大量的数据,然而传统的ETL数据传输方法(select=>insert)到GP需要经过GP的单点master,效率非常低。下面介绍外部表用gpfdist快速导入数据:普通外部表和可写外部表区别:1、普通外部表只能select,可写外部表只能insert2、可写外部表没有错误表3、可写外部表可以指定分布键...

2018-07-29 15:18:09 3577

转载 文本文件导入greenplum数据库方法

COPY 命令可以快速的导入数据到 PostgreSQL 中,文件格式类似CVS,txt之类。适合批量导入数据,比自己写脚本逐条插入快很多 文件导入数据库主要分三个步骤:首先,你必须Linux系统中存在这个文件,比如/home/user/test.csv数据只有一列,如下:12345678然后,在数据库建立对应的表,如create talbe...

2018-07-28 17:11:09 2716 1

转载 Greenplum创建表--分布键

Greenplum是分布式系统,创建表时需要指定分布键(创建表需要CREATEDBA权限),目的在于将数据平均分布到各个segment。选择分布键非常重要,选择错了会导致数据不唯一,更严重的是会造成SQL性能急剧下降。 Greenplum有两种分布策略:1、hash分布。Greenplum默认使用hash分布策略。该策略可选一个或者多个列作为分布键(distribution key...

2018-07-28 16:53:59 7492

转载 GreenPlum 5.0的安装

基本环境: server IP MDW 172.16.16.31 SDW1 172.16.16.34 SDW2 172.16.16.35  1:检查操作系统是否符合要求,以及系统设置。我这里使用的系统是CentOS ,操作系统要求CentOS64-bit 6.x or 7.x,CentOS最好是7以上版本。 然后关闭selinux,iptab...

2018-07-24 17:51:06 1486

转载 Greenplum 4.3 For Centos 6.5 安装指南

1.greenplum数据库安装前期准备工作1.1 安装Linuxl  内存:最小1GB,推荐2GB或以上。l  交换空间: 内存大小是1-2GB时,交换空间是内存的1.5倍,内存大小2-16GB时,交换空间等于内存大小,内存大小16G以上时,交换空间为16GB。l  需要选择以下组件:GNOME桌面、编辑器、开发工具、开发库等,具体参照Linux标准文档。l  使用安装光盘安...

2018-07-18 17:06:54 542

原创 sqoop--表

sqoop import --connect jdbc:informix-sqli://10.10.68.24:10001/blazedundb_func:informixserver=test1 --username ficourser --password ficouser  --table prpdcompany --target-dir '/input/data' --fields-ter...

2018-07-13 16:55:03 243

转载 sqoop学习2(数据导入与导出命令)

最近学习了下这个导数据的工具,但是在export命令这里卡住了,暂时排不了错误。先记录学习的这一点吧sqoop是什么sqoop(sql-on-hadoop):是用来实现结构型数据(如关系型数据库)和hadoop之间进行数据迁移的工具。它充分利用了mapreduce的并行特点以及批处理的方式加快数据的传输,同时也借助mapreduce实现了容错。sqoop架构1)sqoop目前有两个版本sqoop1...

2018-07-13 16:26:05 603

原创 Hive与HBase整合

首先需要把hive/lib下的hbase包替换成安装的hbase的,需要如下几下:hbase-client-0.98.2-hadoop2.jarhbase-common-0.98.2-hadoop2.jarhbase-common-0.98.2-hadoop2-tests.jarhbase-protocol-0.98.2-hadoop2.jarhtrace-core-2.04.jarhbase-s...

2018-07-11 10:36:58 208

原创 PostgreSQL GreenPlum HAWQ三者的关系及演变过程

这个日程安排同时也是我们公司核心团队的技术进阶史。公司创始团队成员有幸以核心开发者的角色参与,从单机版的关系型数据库(PostgreSQL),大规模并行处理(MPP)数据库(Greenplum Database)到SQL on Hadoop解决方案(Apache HAWQ),以及最新的SQL on Cloud数据仓库(HashData)。通过回顾这个技术演进的历程,我们将阐述如何一步一步地解决联机...

2018-06-27 12:02:35 10715 4

转载 在Hive中实现存储过程–HQL/SQL

目前版本的Hive中没有提供类似存储过程的功能,使用Hive做数据开发时候,一般是将一段一段的HQL语句封装在Shell或者其他脚本中,然后以命令行的方式调用,完成一个业务或者一张报表的统计分析。好消息是,现在已经有了Hive存储过程的解决方案(HPL/SQL –Procedural SQL on Hadoop),并且在未来的Hive的版本(2.0)中,会将该模块集成进来。该解决方案不仅支持Hiv...

2018-06-10 23:17:39 620

转载 HBase概念及表格设计

1. 概述(扯淡~)HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后,犹如醍醐灌顶,进而“山寨”出来的一套系统。由此可见:  1. 几乎所有的HBase中的理念,都可以从BigTable论文中得到解释。原文是英语的,而且还有不少数学概念,看了有点儿懵,建议网上找找学习笔记看看,差不多也就可以入门了。  2. Google确实牛X。  3. 老外也爱山寨~ 第一次看H...

2018-06-08 11:37:59 531

转载 hive与hbase数据交互的详解指南

目录[-]HBase和Hive的集成原理1.文章来源:2.基本介绍3.软件版本4.安装位置5.整合步骤1.在 /usr/local/hbase-0.90.4下:2.修改hive-site.xml文件6.测试hive到hbase中1.  用hive创建hbase能识别的表2.  导入数据到关联hbase的表中去1.在hive中新建一张中间表2.插入数据到hbase表中去3.查看关联hbase的那张表...

2018-06-08 11:36:23 4038

转载 Hive整合HBase 通过Hive读/写HBase中的表

写在前面一:本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰。 写在前面二:使用软件说明约定所有软件的存放目录:/home/yujianxin一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler-0.9.0...

2018-06-08 11:03:13 281

转载 离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程

关于CDH和Cloudera ManagerCDH (Cloudera‘s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的...

2018-05-20 21:54:23 971

转载 结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型:结构化数据:能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。传统的关系数据模型、行数据,...

2018-03-12 22:28:41 1645 1

转载 Spark性能调优之合理设置并行度

1.Spark的并行度指的是什么?    spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度!    当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置并行度,可以充分利用集群资源,减少每个ta...

2018-03-12 22:24:31 274

转载 MapReduce中partition、shuffle、combiner的作用与关系介绍

【MR】MapReduce中shuffle、partition、combiner的作用与关系一,shuffle(一)对shuffle的理解shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程,也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心,也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图(二)为什么需要s...

2018-03-06 22:59:27 2299

转载 Hadoop的MapReduce阶段为什么要进行排序呢,这样的排序对后续操作有什么好处么?

Mapreduce排序:1、MapReduce中排序发生在哪几个阶段??这些排序是否可以避免,为什么?? 答:一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两阶段会对数据排序,从这个意义上说,MapReduce框架本质就是一个Distributed Sort。在Map阶段,Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(中间可能产生多个文...

2018-03-06 22:15:25 7639 3

转载 hadoop 分片与分块,map task和reduce task的理解

分块:Block  HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统保证一个块存储在一个datanode上。  把File划分成Block,这个是物

2018-01-14 23:33:47 711

转载 Hadoop MapReduce Job性能调优——Map和Reduce个数

map task的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。Input Split的大小,决定了一个Job拥有多少个map。默认input split的大小是64M(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tracke

2018-01-14 23:30:46 2529

转载 大数据hadoop 面试经典题

1.在Hadoop中定义的主要公用InputFormat中,默认是哪一个?(A) A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储?(C) A.NameNodeB.JobT

2018-01-11 18:25:34 1141

转载 MapReduce排序

之前在工作中使用到过MapReduce的排序,当时对于这个平台的理解还比较浅显,选择的是一个最为简单的方式,就是只用一个Recude来做。因为Map之后到Reduce阶段,为了Merge的方便,MapReduce的实现会自己依据key值进行排序,这样得出的结果就是一个整体排序的结果。而如果使用超过一个Reduce任务的话,所得的结果是每个part内部有序,但是整体是需要进行merge才可以得到最终

2018-01-11 18:12:51 289

转载 shuffle工作原理

定义shuffle:针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。由图可见Shuffle过程横跨了map,reduce两端,所以为了方便讲解,我们在下面分为两个部分进行讲解:map端和reduce端map端的shuffle: 我们按照图中的1234步逐步进行说明: ①

2018-01-11 17:32:34 1057

转载 语音、图像和视频数据的格式

今天,计算机多媒体技术的应用越来越广泛。多媒体技术的核心就是使用计算机综合处理声、文、图、像等多媒体信息。数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。那么如何对数据进行压缩呢?首先得知道数据的格式,根据不同数据的存储格式使用不同的压缩算法对数据进行压缩。本文主要

2018-01-07 20:40:41 6316

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除