大数据
关于大数据学习中遇到的问题及原理
い回首、相濡以沫
未来的你一定会感谢现在拼命努力的自己
展开
-
启动Hadoop时,DataNode启动后一会儿自动消失的解决方法
通过查看日志发现namenode和datanode的clusterID值不一样,原因是重复格式化解决办法:打开hdfs-site.xml里配置的datanode和namenode对应的目录,分别打开current文件夹里的VERSION,可以看到clusterID项正如日志里记录的一样,确实不一致,修改datanode里VERSION文件的clusterID 与namenode里的一致,再重新启...原创 2019-11-06 14:58:36 · 620 阅读 · 0 评论 -
从架构设计、部署方式、使用方法、应用场景等方面,比较tfs、hdfs、fastdfs、Tachyon的异同
转载自https://blog.csdn.net/qq_41946557/article/details/102756152详细资料:TFS https://blog.csdn.net/qq_41946557/article/details/102753394Hdfs https://blog.csdn.net/qq_41946557/article/details/102753444fa...转载 2019-11-05 17:12:46 · 141 阅读 · 0 评论 -
hive小练习:统计游戏数据中每日注册的人数
思路:使用分区表,按照日期分区(年月日),将数据导入分区表。根据分区查询统计每日注册的人数。建立分区表:accountregister.sqlcreate table accountregister (AppID string comment "应用ID",GameID string comment "游戏ID",ChildID string comment "子版本ID",IP s...原创 2019-11-06 16:20:32 · 581 阅读 · 0 评论 -
Hbase命令行无法删除的问题
在HBase的shell命令行界面输入错误项按"退格键"删除,却怎么也删除不了:解决办法:第一步,修改SecureCRT的设置参数:第二步,按"Ctrl+退格键(Backspace)"进行删除即可。...转载 2019-11-05 18:53:12 · 359 阅读 · 0 评论 -
hadoop配置HA后,hive查询时出现 SemanticException java.net.UnknownHostException: hadoop
我的原因是配置HA时改变了主机名称,导致与元数据中的主机名不一致。解决办法:修改下面两张表DBS : Hive数据仓库的总路径SDS : Hive每张表对应的路径使用sql语句替换hadoop是我以前的主机名称hadoop01是我现在的主机名称update DBS set DB_LOCATION_URI=REPLACE (DB_LOCATION_URI,'hadoop','ha...原创 2019-11-06 15:12:42 · 689 阅读 · 0 评论 -
部署hbase时抛出ClockOutOfSyncException异常,设置时间同步
原因是时间不同步,导致regionserver无法启动。解决办法:设置时间同步nptdate cn.pool.npt.org原创 2019-11-05 19:09:59 · 195 阅读 · 0 评论 -
NameNode和SecondaryNameNode的工作机制
NameNode和Secondary NameNode的工作机制如下图:第一阶段:NameNode启动1、第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编译日志和镜像文件到内存。2、客户端对元数据进行增删改的请求3、namenode记录操作日志,更新滚动日志4、namenode在内存中对数据进行增删改第二阶段:Secondary...原创 2019-11-06 21:31:19 · 287 阅读 · 0 评论 -
【Spark篇】--Spark中的宽窄依赖和Stage的划分
一、前述RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务,任务是一个个的task 。二、具体细节窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。父RDD...原创 2019-11-18 20:01:18 · 184 阅读 · 0 评论 -
安装伪分布式的Hadoop
Hadoop下载:版本hadoop-2.6.4安装之前请确定jdk已经安装好1.把hadoop-2.6.4.tar.gz拖放到/usr/local目录下2.使用命令tar -zxvf hadoop-2.6.4.tar.gz解压缩,产生文件夹/usr/local/hadoop-2.6.43.编辑/etc/profile,增加环境变量。记得source /etc/profile4.修改/u...原创 2019-11-06 21:55:08 · 99 阅读 · 0 评论 -
Datanode工作机制
DataNode工作机制如下图:1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台...原创 2019-11-06 21:37:11 · 127 阅读 · 0 评论 -
Scala实现快速排序
//快速排序 def quickSort(array: Array[Int], low: Int, high: Int): Array[Int] = { var key = array(low) var i = low var j = high while (i < j) { //右到左遍历 while (i < j &am...原创 2019-11-14 22:23:27 · 225 阅读 · 0 评论 -
hbase的读写、储存机制、合并
(1) Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。(2) 数据被写入Region的MemStore,直到MemStore达到预设阈值。(3) MemStore中的数据被Flush成一个StoreFile。(4) 随着StoreFile文件的不断增多,当其数量增长到一定阈值后,触发Compact合并操作,将多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除。(5) StoreFiles通过不断的Compact原创 2019-11-06 10:26:10 · 342 阅读 · 0 评论 -
HDFS架构组成以及读写机制
概念:hdfs是一个主从式分布式文件管理系统,通过目录树来管理文件,由多台服务器联合起来实现其功能,集群中的服务器有各自的角色优点:1、高容错性数据自动保存多个副本。他通过增加副本的形式,来提高容错性;某一个副本丢失的时候,能够自动恢复2、适合大数据处理数据规模:能够处理的文件能够达到GB、TB、甚至PB文件规模:能够处理百万规模以上的数据,数量相当之大3、可构建在廉价的...原创 2019-11-06 20:34:54 · 346 阅读 · 0 评论 -
HBase启动时有进程,webUI不显示HRegionServer
HBase启动时有进程,webUI不显示HRegionServer问题描述:启动Hbase以后,Hmaster和HRegionServer进程都存在,但是web上没有HRegionServer没有信息,并且会提示一串英文(大概意思是负载均衡没有启用)解决办法:hadoop进入安全模式了,hadoop dfsadmin -safemode leave用这个命令离开安全模式就可以了。...原创 2020-08-28 18:24:47 · 1518 阅读 · 0 评论 -
hbase建student表,提示表已经存在,但是list查不到
原因是:在删除一个表之前,disable的时候 不小心断开或其他因素 导致disable没有成功,然后就直接drop掉了这张表,虽然表被删除掉了,但是zookeeper依然存在该表的信息,故而造成上述错误,list的时候也找不到。解决办法:运行zkCli.sh,进入zookeeper客户端进行如下操作:删掉student表即可...原创 2019-11-07 19:48:24 · 774 阅读 · 0 评论