大数据
文章平均质量分 50
20190526
这个作者很懒,什么都没留下…
展开
-
Hive SQL
目录一、数据类型1、基本数据类型2、复合数据类型二、数据定义一、数据类型1、基本数据类型类型 说明 数值型 tinyint 1字节0-255整数 SMALLINT 小整形2字节 INT 4字节整形 BIGINT 8字节整形 FLOAT 单精度 DOUBLE 双精度 DECIMAL 可带小数的精确数字字符串 布尔型 Boolean TRUE/FALSE 字符串型.原创 2021-01-04 10:24:31 · 256 阅读 · 0 评论 -
HUE安装和配置
Hue是一个开源的Apache Hadoop UI系统,最早是由ClouderaDesktop演化而来,由Cloudera贡献给开源社区,它是基于PythonWeb框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduceJob等等。HUE功能是很强大的,目前安装只是为了方便的操作hive。百度搜索了一下HUE,看到下面界面进入之后,找到嗯…需要docker,先安装一个。找到菜鸟教程按.原创 2020-12-30 13:00:19 · 416 阅读 · 0 评论 -
Hive安装
hive是基于Hadoop的数据仓库分析工具,他需要一个关系型数据库来保存元数据信息,所以我们先安装一个mysql 数据库。我将mysql安装在了hadoop05上,hive安装在了hadoop03上。一、安装MySQL下载安装包mysql-8.0.18-1.el8.x86_64.rpm-bundle.tar解压后出现下面文件使用rpm--nodeps参数安装所有包。编辑/etc/my.cnf在【mysqld】模块添加:skip-grant-tables 保存退出启动服务:serv原创 2020-12-29 10:49:02 · 572 阅读 · 1 评论 -
ssh 连接慢
本来在公司的时候用Windows Terminal连接虚拟机挺快的,搬回家后莫名其妙的就很慢,一打开卡几秒,很难受。在网上查了一下。修改/etc/ssh/sshd_config把UseDNS 属性值改为no,去掉注释符。很好用。还有一个方法是,修改/etc/hosts,添加主机的IP地址和主机名windows查看主机名...原创 2020-12-28 22:01:11 · 74 阅读 · 0 评论 -
MapReduce
MapReduce是Hadoop上的一个计算框架,计算过程分为Map阶段和Reduce阶段。用户只需要编写map()和reduce()函数即可完成简单的分布式的程序设计。map函数以键值对为输入,产生一系列键值对作为中间输出,写入本地磁盘,MapReduce会自动将中间数据按key值聚集,将key值相同的数据统一交给reduce函数处理。reduce函数以键值对作为输入,经过汇总计算后将数据写入HDFSMapReduce的五个可编程组件InputFormat通过InputFormat类定义如何分割原创 2020-12-28 16:53:09 · 144 阅读 · 1 评论 -
Hadoop时间和系统不一致
首先系统设置东八区timedatectl set-timezone Asia/Shanghaihadoop设置东八区,编辑/etc/profileexport HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08 -Djava.library.path=$HADOOP_HOME/lib/native"原创 2020-12-28 13:30:01 · 508 阅读 · 0 评论 -
Hadoop用户、用户组以及权限
hadoop的用户和用户组使用的是Linux中的用户组。先看一个问题,如何把root用户加入到超级组supergroup先创建用户组:supergroupgroupadd supergroup然后把root用户添加到该组usermod -a -G supergroup root刷新hadoop上的用户和用户组映射 hdfs dfsadmin -refreshUserToGroupsMappings第一次执行,root用户并没有获得supergroup组的权限,可能是因为执行的机器hado原创 2020-12-28 12:34:01 · 6818 阅读 · 0 评论 -
HDFS操作
HDFS是什么hdfs是hadoop项目的核心子项目,是一个分布式存储的文件系统。具有以下特点:高容错性。hdfs自动创建多个副本。当某一个副本丢失hdfs会复制其他机器上的副本适合大数据处理,能够处理GB,TB,PB级别的数据基于硬盘迭代的IO。一旦写入就不能修改。可以装在廉价的机器上HDFS的常用命令versionversion可以用来查看版本[hadoop@hadoop01 bin]$ hadoop versionHadoop 3.2.1Source code reposit原创 2020-12-28 11:22:33 · 162 阅读 · 0 评论 -
Windows Terminal
Windows Terminal是微软开源的一个款终端模拟软件。在微软应用商店即可下载我们可以通过一些简单的配置设置一些好看的背景,以及不同透明度和默认设置。让我们用起来更方便。下面是我的一些配置// This file was initially generated by Windows Terminal 1.2.2381.0// It should still be usable in newer versions, but newer versions might have additional原创 2020-12-25 14:21:27 · 105 阅读 · 0 评论