一米大六的八个-CSDN博客

原创 es集群快速恢复（优化方案）

1、停止数据写入 2、关闭allocate，禁止shard做allocate curl -XPUT localhost:9200/_cluster/settings -d '{ "persistent" : { "cluster.routing.allocation.enable" : "...

2018-12-12 15:12:55 5419

原创 HDFS中NameNode的启动过程

Namenode保存文件系统元数据镜像，namenode在内存及磁盘上分别存在一份元数据镜像文件，内存中元数据镜像保证了hdfs文件系统文件访问效率，磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的文件组成：fsimage文件：保存文件系统至上次checkpoint为止目录和文件元数据。edits文件：保存文件系统从上次checkpoint起对hdfs的所有...

2018-11-05 15:15:46 2251 2

原创 es数据跨集群迁移（HDSF方法）

es 备份存储方式支持以下几种方式:fs 文件挂载url 网络协议存储 (http,https,ftp)s3 亚马逊hdfsazure 微软gcs 谷歌本篇文章采用hdfs方式存储1.repository(仓库) es集群中,想要备份数据,必须创建仓库,用来存储快照,一个集群可以创建多个仓库2.snapshot (快照) 创建仓库后,我们...

2018-09-05 15:38:16 2354 1

原创 JAVA基础的高并发与数据结构

1.列出你了解的实现结合的接口（Collection）的类，并说明他们的作用和区别 List 保证元素的储存顺序，而且元素可以重复 ArrayList 基于数组，默认初始容量是10，每次扩容一半，内存空间连续，增删改查慢，查询相对比较快，是一个线程不安全的集合 vector 基于数组，默认初始容量是10，每次扩容一倍，内存空间...

2018-08-28 11:32:03 664

2)从数据处理的过程来看，数据仓库是ETL，抽取-清洗加载而数据湖是ELT,抽取-加载-清洗，即数据湖首先是直接讲数据存储，后续使用再进行清洗，而数据仓库在创建之初已经明确应用场景，所以先清洗再加载。5)数据仓库的数据质量是通过数据治理实现数据价值，而数据湖的数据质量主要目的是具备高质量标准，确保数据可信、可靠、具有正确的含义和目的，主要是为了数据存储。4)从存储的数据类型来看，数据仓库存储的主要是结构化数据而数据湖存储的是结构化，半结构化和非结构化的数据，主要存储的是半结构化和非结构化的数据。

2023-10-10 13:45:29 889

原创 java连接docker里面的hbase

java连接docker里面的hbase

2023-02-16 14:57:22 630 1

原创大数据组件的主要计算引擎总结

按照查询类型划分，一般分为即席查询和固化查询：即席查询:通过手写sql完成一些临时的数据分析需求，这类sql形式多变、逻辑复杂，对查询时间没有严格要求固化查询：指的是一些固化下来的取数、看数需求，通过数据产品的形式提供给用户，从而提高数据分析和运营的效率。这类的sql固定模式，对响应时间有较高要求。按照计算引擎主要分为：1、mapreduce计算模型(hive/pig等)。 ...

2019-09-18 10:39:23 2611

转载 impala的update用法

更新声明（仅限Impala 2.8或更高版本）更新Kudu表中的任意行数。此语句仅适用于使用Kudu存储引擎的Impala表。句法：<span style="color:#000000"><code>UPDATE [database_name.]table_name SET col = val [, col = val ... ] [ FROM join...

2019-08-22 11:34:38 12855

转载 impala-shell命令行参数

转发https://my.oschina.net/weiqingbin/blog/190929你可以在启动impala-shell时设置以下选项，用于修改命令执行环境。Note:这些选项与 impalad 守护进程的配置选项不同。关于impalad 选项，参见Modifying Impala Startup Options。选项描述 ...

2019-06-28 14:09:37 462

原创 hive表和impala表的相互支持问题

hive表对应hdfs文件格式问题，有的格式hive支持impala却不支持，比如orc格式表hive可显示，在impala就不行。text格式表就hive,impala都可以。hive的数据需要经过一个同步元数据的操作（ INVALIDATE METADATA；）才能实现impala数据的同步。...

2019-06-19 14:03:32 1468

转载大数据常见错误解决方案

1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法：add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j...

2019-05-28 15:27:11 2496

转载结构化数据、半结构化数据和非结构化数据

在实际应用中，我们会遇到各式各样的数据库如nosql非关系数据库（memcached，redis，mangodb），RDBMS关系数据库（oracle，mysql等），还有一些其它的数据库如hbase，在这些数据库中，又会出现结构化数据，非结构化数据，半结构化数据，下面列出各种数据类型：结构化数据：能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号。传统的关系数据模型...

2019-05-09 09:51:06 1733

原创数据倾斜以及相应的解决办法

数据倾斜就是key分布不均匀，导致分发到不同的reduce上，个别是任务重，导致其他reduce完成，而这些个别的reduce迟迟完成不了原因：key分布不均匀： map端数据倾斜，输入文件太多且大小不一 reduce端数据倾斜，分区器问题业务数据本身的特征hive的解决方案：调节hive的配置参数设置hive.map.agg...

2019-03-11 08:40:48 888

原创 Hive将SQL转化为MapReduce的过程

Hive将SQL转化为MapReduce的过程1.Antlr定义SQL的语法规则，完成SQL词法，语法解析，将sql转化为抽象树AST TREE2.遍历AST TREE，抽象出查询的基本组成单元QueryBlock3.遍历QueryBlock，翻译为执行操作数OperatorTree4.逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少sh...

2019-03-07 13:21:01 2073

转载 Systemd 入门教程：命令篇 journalctl

五、日志管理Systemd 统一管理所有 Unit 的启动日志。带来的好处就是，可以只用journalctl一个命令，查看所有日志（内核日志和应用日志）。日志的配置文件是/etc/systemd/journald.conf。journalctl功能强大，用法非常多。# 查看所有日志（默认情况下，只保存本次启动的日志）$ sudo journalctl# 查看内核日志（不显示应...

2019-02-18 16:38:32 406

原创 Hive动态分区调优参数设置

Hive.exec.dynamic.partition默认值：false是否开启动态分区功能，默认false关闭使用动态分区时候，该参数必须设置为true；Hive.exec.dynamic.partition.mode默认值：strict动态分区的模式，默认strict，表示必须制定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区...

2019-01-21 15:30:59 2252

转载 shell之awk命令详解

awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息awk处理过程: 依次对每一行进行处理，然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v] 大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=...

2019-01-04 10:21:24 2005

转载 HDFS的安全模式

HDFS的安全模式安全模式是HDFS的一种工作状态，处于安全模式的状态下，只向客户端提供文件的只读视图，不接受对命名空间的修改；同时NameNode节点也不会进行数据块的复制或者删除，如：副本的数量小于正常水平。 NameNode启动时，首先fsimage载入内存，并执行编辑日志中的操作。一旦文件系统元数据建立成功，便会创建一个空的编辑日志。此时，NameNode开始监听RPC和Http请...

2018-12-21 11:14:20 915

原创 COMPILE FAILED:semantic error;[Error 10007]

问题：COMPILE FAILED:semantic error;[Error 10007] 解决办法：在plsql的参数plsql.compile.dml.check.semantic的参数设置为false；

2018-12-04 11:09:13 5830

原创 Error Loading Databases

问题：Error Loading Databases 原因：system库下缺少视图手动安装数据字典Mysql>use metastore_inceptorsqlX;Mysql>GRANT ALL PRIVILEGES ON *.* TO ‘ROOT’@’localhost’IDENTIFIED BY ‘password’;Mysql>flu...

2018-12-04 11:07:56 1153

原创 datanode报错：java.io.IOException:Premature EOF from inputStream

HDSF datanode报错如下：原因：文件操作超租期，实际上就是data stream操作过程中文件被删除了，通常是因为Mapred多个task操作同一个文件，一个task完成后删掉文件导致。这个错误跟dfs.datanode.max.transfer.threads参数到达上限有关。这个是datanode同时处理请求的任务上限，总默认值是4096，该参数取值范围[1to8192...

2018-11-22 11:10:06 4146

转载 ldap数据库--ldapsearch，ldapmodify

ldap数据库--ldapsearch，ldapmodify简单介绍一下ldapsearch命令，在ldap搜索条目时很有用，只要适当调整filter就可以。命令如下：　　ldapsearch -h hostname -p port -b baseDN -D BIND_DN [options] filter [attribute]...　　参数说明：　　　　　　-h:主机名或...

2018-11-14 11:16:37 692

原创 Hbase的MOB以及部分调优

Hbase的MOB特性改善了对中等大小值的低延迟读写（基理想状态为100k到10M），这使得可以更好的存储文本，图片和一些其他的中等对象，Hbase特性通过将引用文件和MOB对象的IO路径分离来实现这一改进。对MOB使用不同的压缩策略并因此减少了因为Hbase压缩所导致的写放大的问题。若一个表的MOB文件存储在MOB区域（MOB region）中，则意味着该区域中将大量的MOB文件虚拟脱机r...

2018-11-13 15:15:27 1309

原创关闭防火墙

1) 重启后生效开启： chkconfig iptables on 关闭： chkconfig iptables off2) 即时生效，重启后失效开启： service iptables start 关闭： service iptables stop3）利用CentOS7的的服务管理工具systemctl是CentOS7，它融合之前service和chkconfig的功能于一体...

2018-09-27 09:53:36 371

转载 es常规通用优化参数

1.doc values 相比于倒排索引（通关过关键字查找文档），doc values可以直接来理解为“正排索引”（通过文档，查找关键字） doc values应用场景： 1.针对某field的排序（sort）； 2.针对某filed的聚合（aggregation） 3.特定的过滤（举例;geo过滤） 4.针对特定字段的script操作2.norms...

2018-09-17 15:16:46 1854

转载大数据处理-Bitmap

　　MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"Bit-map空间压缩和快速排序去重1. Bit-map的基本思想　　32位机器上，对于一个整型数，比如int a=1 在内存中占32bit位，这是为了方便计算机的运算。但是对于某些应用场景而言，这属于一种巨大的浪费，因为我们可以用对应的32bit位对应存...

2018-08-31 15:16:45 292

翻译数据库的分区类型

分区的优点： 1.与单个磁盘或文件系统分区相比，可以存储更多的数据。 2.对于那些已经失去保存意义的数据，通常可以通过删除与那些数据有关的分区，很容易地删除那些数据。相反地，在某些情况下，添加新数据的过程又可以通过为那些新数据专门增加一个新的分区，来很方便地实现。通常和分区有关的其他优点包括下面列出的这些。MySQL分区中的这些功能目前还没有实现，但是在我们的优先级列表中，具有...

2018-08-28 11:40:23 1700

翻译 sqoop简介

Sqoop是什么：传统数据库与Hadoop间数据同步工具利用MR分布式批处理，加快了数据传输速度，保证了容错性Sqoop1架构： Sqoop1 import原理(导入)从传统数据库获取元数据信息（schema、table、field、field type）,把导入功能转换为只有Map的Mapreduce作业，在Mapreduce中有很多map，每个map读取一片数据，...

2018-08-28 11:25:47 1458

转载 sparkRDD

SparkRDD： RDD(弹性分布式数据集) RDD是spark提供的核心抽象，在抽象的意义上来说是一种元素集合，包含了数据。他是被分区的，分为多个分区。每个分区分布在集群中的不同点上，从而让RDD中的数据可以被并行操作。(分布式数据集)。RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建，也可以通过应用程序中的集合来创建 RDD的数...

2018-07-27 15:01:54 323

翻译 HIVE的四种排序，以及分区分桶

Hive的四种排序 order by order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模比较大时，需要较长的时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) ...

2018-07-27 14:46:34 2470

ClearloveXXX的博客