自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 HDFS HA 高可用!

HA 概述1)所谓 HA(high available),即高可用(7*24 小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的HA 机制:HDFS 的 HA 和 YARN 的 HA。3)Hadoop2.0 之前,在 HDFS 集群中NameNode 存在单点故障(SPOF)。4)NameNode 主要在以下两个方面影响HDFS 集群:NameN...

2019-01-22 17:47:22 287 1

原创 Datanode工作机制

Datanode工作机制1)一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode 启动后向 namenode 注册,通过后,周期性(1 小时)的向 namenode 上报所有的块信息。3)心跳是每 3 秒一次,心跳返回结果带有 namenode 给该 datanode 的命令如...

2019-01-22 17:31:57 396

原创 Namenode、Secondary NameNode工作原理!

Namenode、Secondary NameNode工作原理第一阶段:namenode 启动1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。2)客户端对元数据进行增删改的请求。3)namenode 记录操作日志,更新滚动日志。4)namenode 在内存中对数据进行增删改查。第二阶段:Se...

2019-01-22 16:47:46 334

原创 HDFS读写数据流程

HDFS写数据流程1)客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件,namenode 检查目标文件是否已存在,父目录是否存在。2)namenode 返回是否可以上传。3)客户端请求第一个 block 上传到哪几个 datanode 服务器上。4)namenode 返回 3 个 datanode 节点,分别为 dn1、dn2、dn3。5...

2019-01-22 15:40:43 312

原创 Hbase读写流程

读数据流程1)HRegionServer保存着mate表以及表数据,要访问表数据,首先Client先去访问Zookeeper,从Zookeeper里面获取meta表所在的位置信息,即找到这个mate表在哪个HRegionServer上保存着。2)接着Client通过刚才获取到的HRegionServer的IP来访问meta表所在的HRegionServer,从而读取到meta,进而获取到met...

2019-01-21 20:10:43 270

原创 MapReduce流程(简单易懂)!

1)map阶段:在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段。①:在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-value对。②:在map阶段,maptask会接受由前面读取来的数据,然后按照所需的逻辑对数据进行加工处理,形成新的key-value对。③:在collec...

2019-01-21 09:49:10 1402

原创 Hbase与Mysql的区别!

定义a)Mysql:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从、Group Replication架构模型(此处以Innodb为例,不涉及别的存储引擎)。b)Hbase:基于HDFS,支持海量数据读写(尤其是写),支持上亿行、上百万列的,面向列的分布式NoSql数据库。天然分布式,主从架构,不支持事务,不支持二级索引,不支持sql。数据存储方式a)MySQ...

2019-01-21 09:33:46 6305

原创 详解数据库事务!!!

首先:一组要么同时执行成功,要么同时执行失败的SQL语句。是数据库操作的一个执行单元。数据库事务讲解事务开始于:● 连接到数据库上,并执行一条DML语句insert、update或delete● 前一个事物结束后,又输入了另一条DML语句事务结束于:● 执行commit或rollback语句● 执行一条DDL语句,例如create table语句,在这种情况下,会自动执行commit...

2019-01-16 20:14:20 176

原创 GeoHash核心原理解析!!!

一、感性认识GeoHash1)GeoHash将二维的经纬度转换成字符串,比如下图展示了北京9个区域的GeoHash字符串,分别是WX4ER、WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,这样既可以保护隐私(只表示大概区域位置而不是具体的点),又比较容易做缓存,比如左上角这个区域内的用户不断发送位置信息请...

2019-01-15 19:21:49 444 1

原创 Caused by: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission

出错Caused by: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=hdfs, access=EXECUTE, inode="/tmp":hadoop:supergroup:drwxrwx--- at org.apache.hado...

2019-01-10 23:00:12 1127

原创 Hive中sort by、distribute by、cluster by的区别及用法

sort bysort by:每个MapReduce内部进行排序,对全局结果集来说并不是排序。distribute bydistribute by:类似MR中的partition,进行分区,结合sort by使用。注意:Hive要求distribute by语句要写在sort by语句之前。cluster bycluster by:当distribute by和sort by字段相同时...

2019-01-10 17:46:14 2153

原创 hive建表出错:Specified key was too long; max key length is 767 bytes

出错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validating class(es) ...

2019-01-09 21:45:07 257

原创 Hive计算引擎切换

1、在低版本的hive中,只有两种计算引擎【mr, tez】!!!2、在高版本的hive中,有三种计算引擎【mr, spark, tez】!!!切换引擎1)配置mapreduce计算引擎set hive.execution.engine=mr;2)配置spark计算引擎set hive.execution.engine=spark;3)配置tez 计算引擎set hive.ex...

2019-01-09 11:29:04 2481 1

原创 Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMe

场景:再运行hive的建库、建表脚本时,出现的错误!!!Logging initialized using configuration in jar:file:/home/hadoop/install/hive-0.13.1-cdh5.3.6/lib/hive-common-0.13.1-cdh5.3.6.jar!/hive-log4j.propertiesException in thre...

2019-01-08 15:08:34 831

原创 Python基础--名片管理系统(简单易懂)

一、需求1)新建名片(姓名、电话、QQ、邮箱)2)显示全部名片(修改)3)查询名片二、代码实现import restate = TruebussinessCard = {}# 新建名片def create_card(): tel_istrue = True qq_istrue = True mail_istrue = True name = s...

2019-01-03 09:33:08 911

原创 Python基础--打印99乘法表(各种形式的乘法表)

第一种:for i in range(1, 10): for j in range(i, 10): print("%d*%d=%2d" % (i, j, i*j), end=" ") print("")第二种:for i in range(1, 10): for k in range(1, i): print(end=&

2019-01-02 09:42:51 475

原创 Redis安装(Linux)---手把手教你安装Redis!!

1)、下载redis3的稳定版本,下载地址http://download.redis.io/releases/redis-3.2.10.tar.gz2)、2.上传redis-3.2.10.tar.gz到服务器3)、解压redis源码包tar -zxvf redis-3.2.10.tar.gz -C /usr/local/4)、进入到源码包中,编译并安装rediscd /usr/loca...

2018-12-26 20:19:48 293

原创 Redis详解---三分钟带你认识Redis!!

一、什么是Redis?Redis是用 c 语言开发的一个开源的高性能键值对(key-value)数据库,Redis 是目前一个非常优秀的 key-value 存储系统,它支持存储的value 类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set 有序集合)和 hash(哈希类型)。二、Redis应用场景缓存(数据查询、短连接、新闻内容、商...

2018-12-26 19:51:46 309

原创 三分钟了解什么是Hadoop

开门见山的一个问题:什么是Hadoop??1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题额3)广义上来说,Hadoop通常是指一个更广泛的概念——HADOOP生态圈Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks1)Apache 版本是最原始(最基础)的版本...

2018-12-04 19:43:47 467

原创 kafka集群部署

准备工作:1)下载:http://kafka.apache.org/downloads.html2)虚拟机关闭防火墙:chkconfig iptables off (开机不自动启动)3)安装JDK4)安装Zookeeper安装:1)解压安装包到指定目录:tar -xvf kafka_2.11-0.11.0.0.tgz -C /home/hadoop/install/2)在/hom...

2018-12-03 22:41:49 161

原创 HBase集群搭建

首先确保hadoop集群和zookeeper正常启动:sbin/start-dfs.sh (开启hdfs)sbin/start-yarn.sh (开启yarn)./zkServer.sh start (开启ZK)解压HBase到指定目录下:tar -xvf /home/hadoop/tools/hbase-1.3.1-bin.tar.gz -C /home/hadoop/insta...

2018-12-03 22:14:18 209

原创 Sqoop 简单的数据导入/导出、一些常用命令及参数

一、数据导入:在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,使用 import 关键字。1)RDBMS 到 HDFS①确定Mysql 服务开启正常②在Mysql 中新建一张表并插入一些数据mysql -uroot -prootcreate databese company;use company;create ...

2018-11-28 21:33:36 1139

原创 Sqoop安装

sqoop安装1)下载并解压到指定位置(可到官网下载)2)修改配置文件(Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下conf目录下)①重命名配置文件(template临时的)mv sqoop-env-template.sh sqoop-env.shmv sqoop-site-template.xml sqoop-site.xml②修改配置文件sqoop-env...

2018-11-28 21:16:53 300

原创 Eclipse常用快捷键

1几个最重要的快捷键代码助手:Ctrl+Space(简体中文操作系统是Alt+/)快速修正:Ctrl+1单词补全:Alt+/打开外部Java文档:Shift+F2显示搜索对话框:Ctrl+H快速Outline:Ctrl+O打开资源:Ctrl+Shift+R打开类型:Ctrl+Shift+T显示重构菜单:Alt+Shift+T上一个/下一个光标的位置:Alt+Left/Righ...

2018-11-28 20:25:26 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除