Zookeeper的Leader选举

一、前言   前面学习了Zookeeper服务端的相关细节,其中对于集群启动而言,很重要的一部分就是Leader选举,接着就开始深入学习Leader选举。 二、Leader选举   2.1 Leader选举概述   Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群...

2019-01-09 11:51:17

阅读数 27

评论数 0

Hadoop面试

1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2.单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序...

2018-12-21 14:53:43

阅读数 82

评论数 0

Kafka到Hdfs的数据Pipeline整理

1> Kafka -> Flume –> Hadoop Hdfs 常用方案,基于配置,需要注意hdfs小文件性能等问题. GitHub地址:  https://github.com/apache/flume 2&amp...

2018-12-21 11:59:12

阅读数 45

评论数 0

大数据:Hive - ORC 文件存储格式

一、ORC File文件结构   ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并...

2018-12-06 11:54:15

阅读数 48

评论数 0

csv、parquet、orc读写性能和方式

背景      最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想...

2018-12-05 17:41:03

阅读数 74

评论数 0

Hive分区表新增字段+重刷历史方法(避免旧分区新增字段为NULL)

1-1.建立测试表 hive> CREATE EXTERNAL TABLE table_for_test_add_column( > original_column string COMMENT '原始数据' &amp...

2018-12-05 10:15:08

阅读数 43

评论数 0

Mysql 事务的四种隔离级别介绍

1、未提交读(READ UNCOMMITTED) 事务中的修改,即使没有提交,对于其他事务来说也是可见的。也就是说事务可以读取未提交的数据,也就是脏读(Dirty Read). 这是最低的隔离级别,实际的应用中一般不用这种隔离级别。 下面来模拟看下效果: Session 1 : mysq...

2018-11-28 11:25:23

阅读数 26

评论数 0

Hive修改表

Alter Table 语句 它是在Hive中用来修改的表。 语法 声明接受任意属性,我们希望在一个表中修改以下语法。 ALTER TABLE name RENAME TO new_name ALTER TABLE name ADD COLUMNS (col_spec[, col_spe...

2018-11-21 16:10:43

阅读数 13

评论数 0

Hadoop YARN配置参数剖析—Fair Scheduler相关参数

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。 Fair Sched...

2018-11-09 16:09:36

阅读数 32

评论数 0

Hadoop YARN配置参数剖析—Capacity Scheduler相关参数

Capacity Scheduler是YARN中默认的资源调度器。 想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。 在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yar...

2018-11-09 16:07:42

阅读数 36

评论数 0

Mongodb数据同步到Hive

思路:利用Mongodb的export工具导出数据成json格式;              load该json数据到临时hive表的一个字段;              从该临时hive表解析json落地成最终的表; 代码: 1. 利用Mongodb的export工具导出数据成json格...

2018-11-08 15:15:26

阅读数 115

评论数 0

使用Sqoop job工具同步数据

我们使用的是Sqoop-1.4.4,在进行关系型数据库与Hadoop/Hive数据同步的时候,如果使用--incremental选项,如使用append模式,我们需要记录一个--last-value的值,如果每次执行同步脚本的时候,都需要从日志中解析出来这个--last-value的值,然后重新设...

2018-11-08 13:47:14

阅读数 37

评论数 0

sqoop 特殊字符导入问题

Sqoop从MySQL导入数据到hive,示例: sqoop import –connect jdbc:mysql://10.255.2.89:3306/test?charset=utf-8 – username selectuser –password select##select## –tab...

2018-09-30 15:14:28

阅读数 377

评论数 0

HDFS——如何将文件从HDFS复制到本地

下面两个命令是把文件从HDFS上下载到本地的命令。 get 使用方法:Hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。 示例: hadoop fs ...

2018-09-28 08:42:18

阅读数 935

评论数 0

拉链表--实现、更新及回滚的具体实现

1 背景   本文前面的内容时参考了'lxw的大数据田地',具体可查看最后的'参考文章',个人加入了'拉链表的回滚'部分的内容sql,如果有实践的,可以互相交流学习,谢谢   在数据仓库的数据模型设计过程中,经常会遇到这样的需求:     1.1 数据量比较大;     1.2 表中的部分...

2018-08-24 17:00:56

阅读数 174

评论数 0

hive的用户和用户权限

HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库,由于是内嵌的文件数据库,只支持一个用户的操作访问,支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制...

2018-08-24 10:36:31

阅读数 160

评论数 0

sqoop同步操作实例

  1、自由模式查询同步数据  (如下) bin/sqoop import \ --connect jdbc:mysql://xxxxxurl、端口、库名xxxxxx?tinyInt1isBit=false \ --username 用户名 \ --password 密码 \ --null-st...

2018-08-24 10:28:57

阅读数 125

评论数 0

Vim 保存和退出命令

命令 简单说明 :w 保存编辑后的文件内容,但不退出vim编辑器。这个命令的作用是把内存缓冲区中的数据写到启动vim时指定的文件中。 :w! 强制写文件,即强制覆盖原有文件。如果原有文...

2018-08-02 10:25:51

阅读数 673

评论数 0

java 深克隆

浅拷贝(Object类中的clone()方法)是指在拷贝对象时,对于基本数据类型的变量会重新复制一份,而对于引用类型的变量只是对引用进行拷贝。深拷贝(或叫深克隆) 则是对对象及该对象关联的对象内容,都会进行一份拷贝。  实体类:package com.lin.test; import java....

2018-06-26 14:36:25

阅读数 47

评论数 0

storm定时任务使用实例

1.背景需要在bolt中定时执行某些操作2.方法都是利用系统自带的定时tuple来完成,相当于系统自动发一个带有特殊标记的tuple,然后自己在bolt中判断,若为此特殊tuple,执行定时函数。(1)如果所有bolt都需要定时,可在topology入口处通过config设置(2)如果只有某一类b...

2018-06-12 16:39:23

阅读数 227

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭