大数据
ronaldo1994
这个作者很懒,什么都没留下…
展开
-
记一次Hive执行Job挂起的解决方法
最近在清洗数据的时候发现Hive表清洗时,通过yarn控制台发现状态是Accepted状态,Hive使用tez引擎启动时挂起,查询日志发现:Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty. Details : AM Partition = <DEFAULT_PARTITION>; AM Resource Re原创 2020-12-01 15:46:30 · 2060 阅读 · 1 评论 -
Spark机器学习库简介
一.大数据与机器学习大数据时代,数据产生的速度是非常惊人的。互联网、移动互联网、物联网、GPS等等都会在无时无刻产生着数据。处理这些数据所需要的存储与计算的能力也在成几何级增长,由此诞生了一系列的以Hadoop为代表的大数据技术,这些大数据技术为处理和存储这些数据提供了可靠的保障。数据、信息、知识是由大到小的三个层次。单纯的数据很难说明一些问题,需要加之人们的一些经验,将其转换为信息,所谓信息,也就是为了消除不确定性,我们常说信息不对称,指的就是在不能够获取足够的信息时,很难消除一些不确定的因素。而原创 2020-11-20 15:23:15 · 1802 阅读 · 0 评论 -
基于ClickHouse的海量数据高效即席查询方案
一.背景介绍ClickHouse 是俄罗斯Yandex在2016年年开源的⼀一个⾼高性能分析型SQL数 据库,主要⾯面向OLAP场景。开源之后,凭借优异的查询性能,受到业界的青睐。优点:1)为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理;2)数据压缩空间大,减少io;处理单查询高吞吐量每台服务器每秒最多数十亿行;3)索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快;原创 2020-11-20 14:46:14 · 6223 阅读 · 0 评论 -
hive性能调优总结
1.fetch抓取 hive.fetch.task.conversion=more 在某些情况下不必要使用MR计算。 hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。2.本地模式hive在进行集群作业时多台机器上协调运行,解决了大数据量查询的问题。但当数据量比较小时,没必要使用分布式查询,可以使用本地模式来执行mr job,只在单台机器上执行效率高很多。set hive.exec.mode.local.auto=true ...原创 2020-11-11 11:25:38 · 687 阅读 · 0 评论 -
HDFS启动时的安全模式
######基础概念####### 当hadoop的datanode节点启动时,会进入安全模式阶段。在此阶段,datanode会向namenode上传它们的数据块列表,让namenode得到块的位置信息,并对每个文件对应的数据块的副本进行统计。当最小副本条件满足时,系统就会退出安全模式。当最小副本数未达到一定条件时,系统会自动对副本数不足的数据块进行datanode复制,直至达到最小副本数,而在安全模式下,系统会处于只读状态,namenode不会处理任何数据块的删除和修改命令。######安...原创 2020-11-09 18:10:29 · 384 阅读 · 0 评论 -
使用Java API操作Hadoop环境搭建
本教程演示均为windows环境下的操作,使用unix/linux系统请绕道。首先,在服务器上部署安装好Hadoop,下载安装包传送门hdp下载地址,在这里不再过多演示。配置windows中的Hadoop环境1.将linux服务器上部署的Hadoop安装包下载一份到windows下,保证是英文安装目录。2.配置系统环境变量,这里以hadoop2.6.5为例。实际配置中请替换成自己的版本。3.在系统Path变量中添加4.下载相关依赖包,传送门winutils地址然后将对..原创 2020-08-03 21:38:42 · 1292 阅读 · 0 评论