hadoop
云百佰
平平淡淡的码农
展开
-
spark 启动thrift server实现hive on spark
在 spark的conf下 创建 hive-site.xml不过在CDH中,hive是默认为hive on spark的,而不是mr新增下面内容:<configuration> <property> <name>hive.metastore.client.connect.retry.delay</name> <value>5</value> </property> <原创 2021-01-21 08:55:08 · 776 阅读 · 0 评论 -
数据治理平台Apache Atlas搭建与导入hive表
一、Atlas2.1.0编译编译环境:环境准备,jdk8_151以上,maven3.6.6下载源码包:国内下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址:http://atlas.apache.org/Downloads.html编译:解压源码包,进入解压后源码包的目录。cd /optsudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv原创 2020-10-30 09:04:38 · 1598 阅读 · 0 评论 -
错误——由于ssh配置启动不了yarn
错误信息:[root@hadoop103 hadoop-2.7.1]# sbin/start-yarn.shstarting yarn daemonsstarting resourcemanager, logging to /opt/module/hadoop-2.7.1/logs/yarn-root-resourcemanager-hadoop103.outThe authenticity of host 'hadoop102 (192.168.0.11)' can't be establishe原创 2020-06-06 17:00:05 · 1334 阅读 · 0 评论 -
hadoop的I/O操作——压缩实现
codeccodec实现了一种压缩-解压缩算法。在hadoop中,一个对CompressionCodec接口的实现代表一个codec。例如,GzipCodec包装了gzip压缩和解压缩算法hadoop的压缩codec压缩格式HadoopCompressionCodecDEFLATEorg.apache.hadoop.io.conpress.DefaultCodec...原创 2019-11-04 22:50:56 · 248 阅读 · 0 评论 -
hadoop的I/O操作——压缩介绍
文件压缩有两大好处:减少存储文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。对于处理大数据,这两个好处非常重要hadoop常用的压缩算法所有压缩算法都需要权衡空间/时间:压缩和解压缩速度更快,其代价通常是只能节省少量的空间。上图列出的所有压缩工具都提供9个不同的选项来控制压缩时必须考虑的权衡:选项-1为优化压缩速度,-9为优化压缩空间。例如,下面是通过最快的压缩方法创建一个名为file...原创 2019-11-01 15:27:43 · 278 阅读 · 0 评论 -
hadoop的HDFS文件系统 java接口——读写文件
java抽象类import org.apache.hadoop.fs.FileSystem 定义了hadoop中的一个文件系统接口。一、读取数据1、从Hadoop URL读取数据这个方法是通过FsURLStreamHandlerFactory实例调用java.net.URL对象的setURLStreamHandlerFactory方法。每个java虚拟机只能调用一次这个方法,因此通常在静态方...原创 2019-10-21 20:35:28 · 1973 阅读 · 0 评论 -
hadoop下运行mapreduce作业——找到每年最高气温
运行环境是:linux-manjaro、hadoop-2.7.1、jdk8在本地完成小规模测试,就可以把作业部署到集群上了。说明下map和reduce。mapreduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都以键值作为输入和输出,其类型由程序员选择。程序员还需要写map函数和reduce函数我们使用的数据如下:1110067011990999991950051...原创 2019-10-18 17:13:01 · 708 阅读 · 0 评论