随笔
易困0.0
小的时候家里边很穷,最值钱的就是一把大锁,每次一下雨,我都会说,锁啊,锁,求求你别锈了!
展开
-
Hive中sort by、distribute by、cluster by的区别及用法
sort bysort by:每个MapReduce内部进行排序,对全局结果集来说并不是排序。distribute bydistribute by:类似MR中的partition,进行分区,结合sort by使用。注意:Hive要求distribute by语句要写在sort by语句之前。cluster bycluster by:当distribute by和sort by字段相同时...原创 2019-01-10 17:46:14 · 2154 阅读 · 0 评论 -
Datanode工作机制
Datanode工作机制1)一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode 启动后向 namenode 注册,通过后,周期性(1 小时)的向 namenode 上报所有的块信息。3)心跳是每 3 秒一次,心跳返回结果带有 namenode 给该 datanode 的命令如...原创 2019-01-22 17:31:57 · 396 阅读 · 0 评论 -
Namenode、Secondary NameNode工作原理!
Namenode、Secondary NameNode工作原理第一阶段:namenode 启动1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。2)客户端对元数据进行增删改的请求。3)namenode 记录操作日志,更新滚动日志。4)namenode 在内存中对数据进行增删改查。第二阶段:Se...原创 2019-01-22 16:47:46 · 334 阅读 · 0 评论 -
详解数据库事务!!!
首先:一组要么同时执行成功,要么同时执行失败的SQL语句。是数据库操作的一个执行单元。数据库事务讲解事务开始于:● 连接到数据库上,并执行一条DML语句insert、update或delete● 前一个事物结束后,又输入了另一条DML语句事务结束于:● 执行commit或rollback语句● 执行一条DDL语句,例如create table语句,在这种情况下,会自动执行commit...原创 2019-01-16 20:14:20 · 176 阅读 · 0 评论 -
HDFS读写数据流程
HDFS写数据流程1)客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件,namenode 检查目标文件是否已存在,父目录是否存在。2)namenode 返回是否可以上传。3)客户端请求第一个 block 上传到哪几个 datanode 服务器上。4)namenode 返回 3 个 datanode 节点,分别为 dn1、dn2、dn3。5...原创 2019-01-22 15:40:43 · 312 阅读 · 0 评论 -
Hbase读写流程
读数据流程1)HRegionServer保存着mate表以及表数据,要访问表数据,首先Client先去访问Zookeeper,从Zookeeper里面获取meta表所在的位置信息,即找到这个mate表在哪个HRegionServer上保存着。2)接着Client通过刚才获取到的HRegionServer的IP来访问meta表所在的HRegionServer,从而读取到meta,进而获取到met...原创 2019-01-21 20:10:43 · 270 阅读 · 0 评论 -
GeoHash核心原理解析!!!
一、感性认识GeoHash1)GeoHash将二维的经纬度转换成字符串,比如下图展示了北京9个区域的GeoHash字符串,分别是WX4ER、WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,这样既可以保护隐私(只表示大概区域位置而不是具体的点),又比较容易做缓存,比如左上角这个区域内的用户不断发送位置信息请...原创 2019-01-15 19:21:49 · 444 阅读 · 1 评论 -
MapReduce流程(简单易懂)!
1)map阶段:在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段。①:在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-value对。②:在map阶段,maptask会接受由前面读取来的数据,然后按照所需的逻辑对数据进行加工处理,形成新的key-value对。③:在collec...原创 2019-01-21 09:49:10 · 1432 阅读 · 0 评论 -
Hbase与Mysql的区别!
定义a)Mysql:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从、Group Replication架构模型(此处以Innodb为例,不涉及别的存储引擎)。b)Hbase:基于HDFS,支持海量数据读写(尤其是写),支持上亿行、上百万列的,面向列的分布式NoSql数据库。天然分布式,主从架构,不支持事务,不支持二级索引,不支持sql。数据存储方式a)MySQ...原创 2019-01-21 09:33:46 · 6315 阅读 · 0 评论 -
hive建表出错:Specified key was too long; max key length is 767 bytes
出错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validating class(es) ...原创 2019-01-09 21:45:07 · 257 阅读 · 0 评论 -
Hive计算引擎切换
1、在低版本的hive中,只有两种计算引擎【mr, tez】!!!2、在高版本的hive中,有三种计算引擎【mr, spark, tez】!!!切换引擎1)配置mapreduce计算引擎set hive.execution.engine=mr;2)配置spark计算引擎set hive.execution.engine=spark;3)配置tez 计算引擎set hive.ex...原创 2019-01-09 11:29:04 · 2482 阅读 · 1 评论 -
Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMe
场景:再运行hive的建库、建表脚本时,出现的错误!!!Logging initialized using configuration in jar:file:/home/hadoop/install/hive-0.13.1-cdh5.3.6/lib/hive-common-0.13.1-cdh5.3.6.jar!/hive-log4j.propertiesException in thre...原创 2019-01-08 15:08:34 · 835 阅读 · 0 评论 -
Caused by: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission
出错Caused by: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=hdfs, access=EXECUTE, inode="/tmp":hadoop:supergroup:drwxrwx--- at org.apache.hado...原创 2019-01-10 23:00:12 · 1128 阅读 · 0 评论 -
HDFS HA 高可用!
HA 概述1)所谓 HA(high available),即高可用(7*24 小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的HA 机制:HDFS 的 HA 和 YARN 的 HA。3)Hadoop2.0 之前,在 HDFS 集群中NameNode 存在单点故障(SPOF)。4)NameNode 主要在以下两个方面影响HDFS 集群:NameN...原创 2019-01-22 17:47:22 · 287 阅读 · 1 评论