- 博客(30)
- 收藏
- 关注
原创 es集群快速恢复(优化方案)
1、停止数据写入 2、关闭allocate,禁止shard做allocate curl -XPUT localhost:9200/_cluster/settings -d '{ "persistent" : { "cluster.routing.allocation.enable" : "...
2018-12-12 15:12:55 5419
原创 HDFS中NameNode的启动过程
Namenode保存文件系统元数据镜像,namenode在内存及磁盘上分别存在一份元数据镜像文件,内存中元数据镜像保证了hdfs文件系统文件访问效率,磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的文件组成:fsimage文件:保存文件系统至上次checkpoint为止目录和文件元数据。edits文件:保存文件系统从上次checkpoint起对hdfs的所有...
2018-11-05 15:15:46 2251 2
原创 es数据跨集群迁移(HDSF方法)
es 备份存储方式支持以下几种方式:fs 文件挂载url 网络协议存储 (http,https,ftp)s3 亚马逊hdfsazure 微软gcs 谷歌本篇文章采用hdfs方式存储1.repository(仓库) es集群中,想要备份数据,必须创建仓库,用来存储快照,一个集群可以创建多个仓库2.snapshot (快照) 创建仓库后,我们...
2018-09-05 15:38:16 2354 1
原创 JAVA基础的高并发与数据结构
1.列出你了解的实现结合的接口(Collection)的类,并说明他们的作用和区别 List 保证元素的储存顺序,而且元素可以重复 ArrayList 基于数组,默认初始容量是10,每次扩容一半,内存空间连续,增删改查慢,查询相对比较快,是一个线程不安全的集合 vector 基于数组,默认初始容量是10,每次扩容一倍,内存空间...
2018-08-28 11:32:03 664
原创 数据仓库与数据湖的区别以及数据入湖方式
2)从数据处理的过程来看,数据仓库是ETL,抽取-清洗加载而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载。5)数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储。4)从存储的数据类型来看,数据仓库存储的主要是结构化数据而数据湖存储的是结构化,半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据。
2023-10-10 13:45:29 889
原创 大数据组件的主要计算引擎总结
按照查询类型划分,一般分为即席查询和固化查询:即席查询:通过手写sql完成一些临时的数据分析需求,这类sql形式多变、逻辑复杂,对查询时间没有严格要求固化查询:指的是一些固化下来的取数、看数需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类的sql固定模式,对响应时间有较高要求。按照计算引擎主要分为:1、mapreduce计算模型(hive/pig等)。 ...
2019-09-18 10:39:23 2611
转载 impala的update用法
更新声明(仅限Impala 2.8或更高版本)更新Kudu表中的任意行数。此语句仅适用于使用Kudu存储引擎的Impala表。句法:<span style="color:#000000"><code>UPDATE [database_name.]table_name SET col = val [, col = val ... ] [ FROM join...
2019-08-22 11:34:38 12855
转载 impala-shell命令行参数
转发https://my.oschina.net/weiqingbin/blog/190929你可以在启动impala-shell时设置以下选项,用于修改命令执行环境。Note:这些选项与 impalad 守护进程的配置选项不同。关于impalad 选项,参见Modifying Impala Startup Options。 选项 描述 ...
2019-06-28 14:09:37 462
原创 hive表和impala表的相互支持问题
hive表对应hdfs文件格式问题,有的格式hive支持impala却不支持,比如orc格式表hive可显示,在impala就不行。text格式表就hive,impala都可以。hive的数据需要经过一个同步元数据的操作( INVALIDATE METADATA;)才能实现impala数据的同步。...
2019-06-19 14:03:32 1468
转载 大数据常见错误解决方案
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j...
2019-05-28 15:27:11 2496
转载 结构化数据、半结构化数据和非结构化数据
在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型:结构化数据:能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。传统的关系数据模型...
2019-05-09 09:51:06 1733
原创 数据倾斜以及相应的解决办法
数据倾斜就是key分布不均匀,导致分发到不同的reduce上,个别是任务重,导致其他reduce完成,而这些个别的reduce迟迟完成不了原因:key分布不均匀: map端数据倾斜,输入文件太多且大小不一 reduce端数据倾斜,分区器问题 业务数据本身的特征hive的解决方案: 调节hive的配置参数 设置hive.map.agg...
2019-03-11 08:40:48 888
原创 Hive将SQL转化为MapReduce的过程
Hive将SQL转化为MapReduce的过程1.Antlr定义SQL的语法规则,完成SQL词法,语法解析,将sql转化为抽象树AST TREE2.遍历AST TREE,抽象出查询的基本组成单元QueryBlock3.遍历QueryBlock,翻译为执行操作数OperatorTree4.逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少sh...
2019-03-07 13:21:01 2073
转载 Systemd 入门教程:命令篇 journalctl
五、日志管理Systemd 统一管理所有 Unit 的启动日志。带来的好处就是,可以只用journalctl一个命令,查看所有日志(内核日志和应用日志)。日志的配置文件是/etc/systemd/journald.conf。journalctl功能强大,用法非常多。# 查看所有日志(默认情况下 ,只保存本次启动的日志)$ sudo journalctl# 查看内核日志(不显示应...
2019-02-18 16:38:32 406
原创 Hive动态分区调优参数设置
Hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关闭使用动态分区时候,该参数必须设置为true;Hive.exec.dynamic.partition.mode默认值:strict动态分区的模式,默认strict,表示必须制定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区...
2019-01-21 15:30:59 2252
转载 shell之awk命令详解
awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程: 依次对每一行进行处理,然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v] 大参数,-F指定分隔符,-f调用脚本,-v定义变量 var=...
2019-01-04 10:21:24 2005
转载 HDFS的安全模式
HDFS的安全模式安全模式是HDFS的一种工作状态,处于安全模式的状态下,只向客户端提供文件的只读视图,不接受对命名空间的修改;同时NameNode节点也不会进行数据块的复制或者删除,如:副本的数量小于正常水平。 NameNode启动时,首先fsimage载入内存,并执行编辑日志中的操作。一旦文件系统元数据建立成功,便会创建一个空的编辑日志。此时,NameNode开始监听RPC和Http请...
2018-12-21 11:14:20 915
原创 COMPILE FAILED:semantic error;[Error 10007]
问题:COMPILE FAILED:semantic error;[Error 10007] 解决办法:在plsql的参数plsql.compile.dml.check.semantic的参数设置为false;
2018-12-04 11:09:13 5830
原创 Error Loading Databases
问题:Error Loading Databases 原因:system库下缺少视图 手动安装数据字典Mysql>use metastore_inceptorsqlX;Mysql>GRANT ALL PRIVILEGES ON *.* TO ‘ROOT’@’localhost’IDENTIFIED BY ‘password’;Mysql>flu...
2018-12-04 11:07:56 1153
原创 datanode报错:java.io.IOException:Premature EOF from inputStream
HDSF datanode报错如下: 原因:文件操作超租期,实际上就是data stream操作过程中文件被删除了,通常是因为Mapred多个task操作同一个文件,一个task完成后删掉文件导致。这个错误跟dfs.datanode.max.transfer.threads参数到达上限有关。这个是datanode同时处理请求的任务上限,总默认值是4096,该参数取值范围[1to8192...
2018-11-22 11:10:06 4146
转载 ldap数据库--ldapsearch,ldapmodify
ldap数据库--ldapsearch,ldapmodify简单介绍一下ldapsearch命令,在ldap搜索条目时很有用,只要适当调整filter就可以。命令如下: ldapsearch -h hostname -p port -b baseDN -D BIND_DN [options] filter [attribute]... 参数说明: -h:主机名或...
2018-11-14 11:16:37 692
原创 Hbase的MOB以及部分调优
Hbase的MOB特性改善了对中等大小值的低延迟读写(基理想状态为100k到10M),这使得可以更好的存储文本,图片和一些其他的中等对象,Hbase特性通过将引用文件和MOB对象的IO路径分离来实现这一改进。对MOB使用不同的压缩策略并因此减少了因为Hbase压缩所导致的写放大的问题。若一个表的MOB文件存储在MOB区域(MOB region)中,则意味着该区域中将大量的MOB文件虚拟脱机r...
2018-11-13 15:15:27 1309
原创 关闭防火墙
1) 重启后生效 开启: chkconfig iptables on 关闭: chkconfig iptables off2) 即时生效,重启后失效 开启: service iptables start 关闭: service iptables stop3)利用CentOS7的的服务管理工具systemctl是CentOS7,它融合之前service和chkconfig的功能于一体...
2018-09-27 09:53:36 371
转载 es常规通用优化参数
1.doc values 相比于倒排索引(通关过关键字查找文档),doc values可以 直接来理解为“正排索引”(通过文档 ,查找关键字) doc values应用场景: 1.针对某field的排序(sort); 2.针对某filed的聚合(aggregation) 3.特定的过滤(举例;geo过滤) 4.针对特定字段的script操作2.norms...
2018-09-17 15:16:46 1854
转载 大数据处理-Bitmap
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"Bit-map空间压缩和快速排序去重1. Bit-map的基本思想 32位机器上,对于一个整型数,比如int a=1 在内存中占32bit位,这是为了方便计算机的运算。但是对于某些应用场景而言,这属于一种巨大的浪费,因为我们可以用对应的32bit位对应存...
2018-08-31 15:16:45 292
翻译 数据库的分区类型
分区的优点: 1.与单个磁盘或文件系统分区相比,可以存储更多的数据。 2.对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据。相反地,在某些情况下,添加新数据的过程又可以通过为那些新数据专门增加一个新的分区,来很方便地实现。通常和分区有关的其他优点包括下面列出的这些。MySQL分区中的这些功能目前还没有实现,但是在我们的优先级列表中,具有...
2018-08-28 11:40:23 1700
翻译 sqoop简介
Sqoop是什么:传统数据库与Hadoop间数据同步工具利用MR分布式批处理,加快了数据传输速度,保证了容错性Sqoop1架构: Sqoop1 import原理(导入)从传统数据库获取元数据信息(schema、table、field、field type),把导入功能转换为只有Map的Mapreduce作业,在Mapreduce中有很多map,每个map读取一片数据,...
2018-08-28 11:25:47 1458
转载 sparkRDD
SparkRDD: RDD(弹性分布式数据集) RDD是spark提供的核心抽象,在抽象的意义上来说是一种元素集合,包含了数据。他是被分区 的,分为多个分区。每个分区分布在集群中的不同点上,从而让RDD中的数据可以被并行操作。(分布式数据集)。RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表 ,来进行创建,也可以通过应用程序中的集合来创建 RDD的数...
2018-07-27 15:01:54 323
翻译 HIVE的四种排序,以及分区分桶
Hive的四种排序 order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模比较大时,需要较长的时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) ...
2018-07-27 14:46:34 2470
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人