YYDU_666-CSDN博客

转载 Redis（缓存）

redis缓存机制:缓存中的数据,一定是数据库中的数据,使用缓存主要的目的就是降低用户访问物理设备的频次.如果数据库记录更新,则缓存应该同步更新.

2022-10-20 22:54:32 225

转载关于ES性能调优几件必须知道的事

零）ElasticSearch架构概述ElasticSearch是现在技术前沿的大数据引擎，常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统，其中Logstash是ETL工具，Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略，ES开放了一些接口供开发者研发自己的插件，ES结合中文分词的插件会给ES的搜索和分析起到很大的推动作用。Elas...

2019-03-15 17:42:42 4106

转载 elasticsearch5.x集群HA原理(shards、replicas)

最近在搭建es5.2的高可用集群，在这个过程中加深了对es的原理理解，基本分为四个阶段es单机—>es集群（多台机器）—>es分片和副本集分布原理—>es高可用集群1.es单机在第一个阶段基本概念的掌握还是比较熟练的，对应着关系型数据库（mysql）来理解es：文档（document）文档（document）是ElasticSearch中的存储形式。对所有...

2019-03-12 18:35:46 932

原创 ElasticSearch怎样设置 master、data 和 client 节点

在生产环境下，如果不修改elasticsearch节点的角色信息，在高数据量，高并发的场景下集群容易出现脑裂等问题。　　默认情况下，elasticsearch 集群中每个节点都有成为主节点的资格，也都存储数据，还可以提供查询服务。这些功能是由两个属性控制的。　　　　1. node.master　　　　2. node.data　　默认情况下这两个属性的值都是true。　　node.m...

2019-01-05 23:57:42 10142 2

原创 ElasticSearch增删该查Linux下命令大全

我们通常用用_cat API检测集群是否健康。确保9200端口号可用:　　curl 'localhost:9200/_cat/health?v' 　　绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用. 　　2.通过如下语句，我们可以获取集群的节点列表：　　curl 'localhost:9200/_cat/nodes?v...

2018-12-26 20:11:48 1947

转载 Elasticsearch —— bulk批量导入数据

在使用Elasticsearch的时候，一定会遇到这种场景——希望批量的导入数据，而不是一条一条的手动导入。那么此时，就一定会需要bulk命令！更多内容参考我整理的Elk教程bulk批量导入批量导入可以合并多个操作，比如index,delete,update,create等等。也可以帮助从一个索引导入到另一个索引。语法大致如下；action_and_meta_data\n...

2018-12-03 17:13:22 987

原创 Linux下mysql彻底卸载

一、使用以下命令查看当前安装mysql情况，查找以前是否装有mysql? 1 rpm -qa|grep -i mysql 可以看到如下图的所示：显示之前安装了： MySQL-client-5.5.25a-1.rhel5 MySQL-server-5.5.25a-1.rhel52、停止mysql服务、删除之前安装的m...

2018-11-15 15:02:00 173

转载 KUDU--秒级查询的数据仓库

## == Kudu 是什么 == Kudu是Todd Lipcon@Cloudera带头开发的存储系统，其整体应用模式和HBase比较接近，即支持行级别的随机读写，并支持批量顺序检索功能。那既然有了HBase，为什么还需要Kudu呢，简单的说，就是嫌弃HBase在OLAP场合，SQL／MR类的批量检索场景中，性能不够好。通常这种海量数据OLAP场景，要不走预处理的路，比如像EB...

2018-11-05 16:44:43 1939

原创 ElasticSearch分页查询详解-----------深度分页(from-size)和快照分页(scroll)

Elasticsearch中数据都存储在分片中，当执行搜索时每个分片独立搜索后，数据再经过整合返回。那么，如何实现分页查询呢？按照一般的查询流程来说，如果我想查询前10条数据： 1)客户端请求发给某个节点 2)节点转发给个个分片，查询每个分片上的前10条 3)结果返回给节点，整合数据，提取前10条 4...

2018-09-20 20:11:00 3341

原创 ElasticSearch底层原理浅析

基本概念索引（Index）ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库，或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。类型（Type）类型是索引内部的逻辑分区(categ...

2018-09-20 10:55:42 5172

原创 Elasticsearch工作原理

一、关于搜索引擎各位知道，搜索程序一般由索引链及搜索组件组成。索引链功能的实现需要按照几个独立的步骤依次完成：检索原始内容、根据原始内容来创建对应的文档、对创建的文档进行索引。搜索组件用于接收用户的查询请求并返回相应结果，一般由用户接口、构建可编程查询语句的方法、查询语句执行引擎及结果展示组件组成。著名的开源程序Lucene是为索引组件，它提供了搜索程序的核心索引和搜索模块，例...

2018-09-18 18:07:37 264

原创 windows10下安装oracle11g和PLSQL Developer

工具/原料 oracle11g安装包（64位） oracle11g客户端（32位） PLSQL Developer安装包方法/步骤 1 在Oracle官网下载安装包，下载后，得到的文件如图所示： 2 将两个文件进行解压缩，得到目录如图所示： 3 双击setup.exe，系统将会进行自检，若提示[INS-13001]环...

2018-09-15 21:51:23 1483 1

转载 Elasticsearch使用REST API实现全文检索

Elasticsearch使用REST API实现全文检索Elasticsearch REST APIelasticsearch支持通过http请求响应服务,http请求默认使用9200断开，因此通过curl命令，可以发送http请求，并得到json返回内容。常用的REST API包括一下几个：检查ES集群状态curl http://localhost:9200/_cat/hea...

2018-09-12 15:59:19 378

原创 logstash-input-jdbc 同步原理及定时器

定时器：多久执行一次SQL，默认是一分钟 # schedule => 分时天月年 # schedule => * 22 * * * 表示每天22点执行一次 schedule => "前言：基于logstash-input-jdbc较其他插件的稳定性、易用性、版本和ES同步更新的特点，以下研究主要针对 logstash-input-...

2018-08-29 17:00:12 5184 1

原创 Win7 64位系统U盘安装Centos6.5双系统

安装前准备：　　U盘、软碟通（UltraISO）、CentOS-6.5-x86_64-bin-DVD1（DVD 2只是一些软件，安装系统只要DVD1就可以）设置安装Centos的磁盘位置：　　应该单独分出一块逻辑盘来安装Centos系统，逻辑盘的意思就是常规定义上的C盘、D盘、E盘、F盘，可以用一些磁盘分区软件设置一个差不多大小的F空盘用来安装Centos系统；将Cen...

2018-08-13 18:50:08 291

原创 Linux下安装Elasticsearch5.X

下载Elasticsearch　　登录官网 https://www.elastic.co/cn/downloads　　选择下载elasticsearch，根据需要选择对应的安装包，这里选择5.0版本，下载完后得到 elasticsearch-5.0.0.tar.gz解压安装　　将 elasticsearch-5.0.0.tar.gz 拷贝到 /opt 目录下。　　在Linux中...

2018-08-10 14:11:27 422

转载 greenplum使用gpfdist与外部表高效导入数据教程

greenplum作为OLAP分析型软件，自然避免不了从外部数据库加载大量的数据，然而传统的ETL数据传输方法(select=>insert)到GP需要经过GP的单点master，效率非常低。下面介绍外部表用gpfdist快速导入数据：普通外部表和可写外部表区别：1、普通外部表只能select,可写外部表只能insert2、可写外部表没有错误表3、可写外部表可以指定分布键...

2018-07-29 15:18:09 3577

转载文本文件导入greenplum数据库方法

COPY 命令可以快速的导入数据到 PostgreSQL 中，文件格式类似CVS,txt之类。适合批量导入数据,比自己写脚本逐条插入快很多文件导入数据库主要分三个步骤:首先，你必须Linux系统中存在这个文件，比如/home/user/test.csv数据只有一列，如下：12345678然后，在数据库建立对应的表，如create talbe...

2018-07-28 17:11:09 2716 1

转载 Greenplum创建表--分布键

Greenplum是分布式系统，创建表时需要指定分布键（创建表需要CREATEDBA权限），目的在于将数据平均分布到各个segment。选择分布键非常重要，选择错了会导致数据不唯一，更严重的是会造成SQL性能急剧下降。 Greenplum有两种分布策略：1、hash分布。Greenplum默认使用hash分布策略。该策略可选一个或者多个列作为分布键（distribution key...

2018-07-28 16:53:59 7492

转载 GreenPlum 5.0的安装

基本环境： server IP MDW 172.16.16.31 SDW1 172.16.16.34 SDW2 172.16.16.35 1：检查操作系统是否符合要求，以及系统设置。我这里使用的系统是CentOS ,操作系统要求CentOS64-bit 6.x or 7.x，CentOS最好是7以上版本。然后关闭selinux，iptab...

2018-07-24 17:51:06 1486

转载 Greenplum 4.3 For Centos 6.5 安装指南

1.greenplum数据库安装前期准备工作1.1 安装Linuxl 内存：最小1GB，推荐2GB或以上。l 交换空间: 内存大小是1-2GB时，交换空间是内存的1.5倍，内存大小2-16GB时，交换空间等于内存大小，内存大小16G以上时，交换空间为16GB。l 需要选择以下组件:GNOME桌面、编辑器、开发工具、开发库等，具体参照Linux标准文档。l 使用安装光盘安...

2018-07-18 17:06:54 542

sqoop import --connect jdbc:informix-sqli://10.10.68.24:10001/blazedundb_func:informixserver=test1 --username ficourser --password ficouser --table prpdcompany --target-dir '/input/data' --fields-ter...

2018-07-13 16:55:03 243

转载 sqoop学习2（数据导入与导出命令）

最近学习了下这个导数据的工具，但是在export命令这里卡住了，暂时排不了错误。先记录学习的这一点吧sqoop是什么sqoop（sql-on-hadoop）：是用来实现结构型数据（如关系型数据库）和hadoop之间进行数据迁移的工具。它充分利用了mapreduce的并行特点以及批处理的方式加快数据的传输，同时也借助mapreduce实现了容错。sqoop架构1）sqoop目前有两个版本sqoop1...

2018-07-13 16:26:05 603

原创 Hive与HBase整合

首先需要把hive/lib下的hbase包替换成安装的hbase的，需要如下几下：hbase-client-0.98.2-hadoop2.jarhbase-common-0.98.2-hadoop2.jarhbase-common-0.98.2-hadoop2-tests.jarhbase-protocol-0.98.2-hadoop2.jarhtrace-core-2.04.jarhbase-s...

2018-07-11 10:36:58 208

原创 PostgreSQL GreenPlum HAWQ三者的关系及演变过程

这个日程安排同时也是我们公司核心团队的技术进阶史。公司创始团队成员有幸以核心开发者的角色参与，从单机版的关系型数据库（PostgreSQL），大规模并行处理（MPP）数据库（Greenplum Database）到SQL on Hadoop解决方案（Apache HAWQ），以及最新的SQL on Cloud数据仓库（HashData）。通过回顾这个技术演进的历程，我们将阐述如何一步一步地解决联机...

2018-06-27 12:02:35 10715 4

转载在Hive中实现存储过程–HQL/SQL

目前版本的Hive中没有提供类似存储过程的功能，使用Hive做数据开发时候，一般是将一段一段的HQL语句封装在Shell或者其他脚本中，然后以命令行的方式调用，完成一个业务或者一张报表的统计分析。好消息是，现在已经有了Hive存储过程的解决方案（HPL/SQL –Procedural SQL on Hadoop），并且在未来的Hive的版本（2.0）中，会将该模块集成进来。该解决方案不仅支持Hiv...

2018-06-10 23:17:39 620

转载 HBase概念及表格设计

1. 概述（扯淡~）HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后，犹如醍醐灌顶，进而“山寨”出来的一套系统。由此可见：　　1. 几乎所有的HBase中的理念，都可以从BigTable论文中得到解释。原文是英语的，而且还有不少数学概念，看了有点儿懵，建议网上找找学习笔记看看，差不多也就可以入门了。　　2. Google确实牛X。　　3. 老外也爱山寨~ 第一次看H...

2018-06-08 11:37:59 531

转载 hive与hbase数据交互的详解指南

目录[-]HBase和Hive的集成原理1.文章来源：2.基本介绍3.软件版本4.安装位置5.整合步骤1.在 /usr/local/hbase-0.90.4下：2.修改hive-site.xml文件6.测试hive到hbase中1. 用hive创建hbase能识别的表2. 导入数据到关联hbase的表中去1.在hive中新建一张中间表2.插入数据到hbase表中去3.查看关联hbase的那张表...

2018-06-08 11:36:23 4038

转载 Hive整合HBase 通过Hive读/写HBase中的表

写在前面一：本文将Hive与HBase整合在一起，使Hive可以读取HBase中的数据，让Hadoop生态系统中最为常用的两大框架互相结合，相得益彰。写在前面二：使用软件说明约定所有软件的存放目录：/home/yujianxin一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive-hbase-handler-0.9.0...

2018-06-08 11:03:13 281

转载离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程

关于CDH和Cloudera ManagerCDH (Cloudera‘s Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的...

2018-05-20 21:54:23 971

转载结构化、半结构化和非结构化数据

在实际应用中，我们会遇到各式各样的数据库如nosql非关系数据库（memcached，redis，mangodb），RDBMS关系数据库（oracle，mysql等），还有一些其它的数据库如hbase，在这些数据库中，又会出现结构化数据，非结构化数据，半结构化数据，下面列出各种数据类型：结构化数据：能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号。传统的关系数据模型、行数据，...

2018-03-12 22:28:41 1645 1

转载 Spark性能调优之合理设置并行度

1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉了。同时并行运行，还可以让每个task要处理的数量变少（很简单的原理。合理设置并行度，可以充分利用集群资源，减少每个ta...

2018-03-12 22:24:31 274

转载 MapReduce中partition、shuffle、combiner的作用与关系介绍

【MR】MapReduce中shuffle、partition、combiner的作用与关系一，shuffle(一)对shuffle的理解shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程，也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心，也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图(二)为什么需要s...

2018-03-06 22:59:27 2299

转载 Hadoop的MapReduce阶段为什么要进行排序呢，这样的排序对后续操作有什么好处么？

Mapreduce排序：1、MapReduce中排序发生在哪几个阶段？？这些排序是否可以避免，为什么？？答：一个MapReduce作业由Map阶段和Reduce阶段两部分组成，这两阶段会对数据排序，从这个意义上说，MapReduce框架本质就是一个Distributed Sort。在Map阶段，Map Task会在本地磁盘输出一个按照key排序（采用的是快速排序）的文件（中间可能产生多个文...

2018-03-06 22:15:25 7639 3

转载 hadoop 分片与分块，map task和reduce task的理解

分块：Block　　HDFS存储系统中，引入了文件系统的分块概念（block），块是存储的最小单位，HDFS定义其大小为64MB。与单磁盘文件系统相似，存储在 HDFS上的文件均存储为多个块，不同的是，如果某文件大小没有到达64MB，该文件也不会占据整个块空间。在分布式的HDFS集群上，Hadoop系统保证一个块存储在一个datanode上。　　把File划分成Block，这个是物

2018-01-14 23:33:47 711

转载 Hadoop MapReduce Job性能调优——Map和Reduce个数

map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracke

2018-01-14 23:30:46 2529

转载大数据hadoop 面试经典题

1.在Hadoop中定义的主要公用InputFormat中，默认是哪一个？（A） A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储？（C） A.NameNodeB.JobT

2018-01-11 18:25:34 1141

转载 MapReduce排序

之前在工作中使用到过MapReduce的排序，当时对于这个平台的理解还比较浅显，选择的是一个最为简单的方式，就是只用一个Recude来做。因为Map之后到Reduce阶段，为了Merge的方便，MapReduce的实现会自己依据key值进行排序，这样得出的结果就是一个整体排序的结果。而如果使用超过一个Reduce任务的话，所得的结果是每个part内部有序，但是整体是需要进行merge才可以得到最终

2018-01-11 18:12:51 289

转载 shuffle工作原理

定义shuffle：针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。由图可见Shuffle过程横跨了map，reduce两端，所以为了方便讲解，我们在下面分为两个部分进行讲解：map端和reduce端map端的shuffle：我们按照图中的1234步逐步进行说明： ①

2018-01-11 17:32:34 1057

转载语音、图像和视频数据的格式

今天，计算机多媒体技术的应用越来越广泛。多媒体技术的核心就是使用计算机综合处理声、文、图、像等多媒体信息。数据压缩是指在不丢失有用信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率，或按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间的一种技术方法。那么如何对数据进行压缩呢？首先得知道数据的格式，根据不同数据的存储格式使用不同的压缩算法对数据进行压缩。本文主要

2018-01-07 20:40:41 6316

空空如也

空空如也