![](https://img-blog.csdnimg.cn/20190402115447415.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据学习
学习和记录大数据知识
酷炜
练习时长两年半的JAVA程序员
展开
-
Hive的安装与配置之嵌入模式
前言:首先,Hive是依赖于hadoop系统的,因此在运行Hive之前需要保证已经搭建好hadoop环境,JAVA环境也是必须有的,可以参考前文搭建。一、嵌入模式介绍特点:不需要使用MySQL,使用Hive自带的Derby数据库存储Hive的元信息使用自带的Derby只支持一个连接metadata即元数据。元数据包含用Hive创建的database、tabel等的元信息在Linux目录...原创 2019-01-13 16:34:34 · 531 阅读 · 0 评论 -
CentOS7安装MySQL错误解决:error: Failed dependencies net-tools is needed by
错误信息:[root@HP110 software]# rpm -ivh mysql-community-server-5.7.19-1.el7.x86_64.rpmwarning: mysql-community-server-5.7.19-1.el7.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEYerror...原创 2019-03-22 16:32:05 · 6563 阅读 · 2 评论 -
Hive安装与配置之本地模式
一、本地模式介绍特点:需要安装配置MySQL数据库替代derby存储元数据可以支持多个连接MySQL在本机中二、准备工作:解压 tar -zxvf apache-hive-2.3.0-bin.tar.gz -C ~/training/设置环境变量 vi ~/.bash_profileHIVE_HOME=/root/training/apache-hive-2.3.0-bine...原创 2019-01-13 16:34:11 · 1302 阅读 · 0 评论 -
HBase全分布模式的安装与配置
一、全分布模式介绍特点:多台机器部署,一般情况下Hmaster和HregionServer分布在不同的服务器,需要依赖底层HDFS分布式存储。搭建HBase的全分布:bigdata112 bigdata113 bigdata114注意:时间同步如果不同步:(1)Hadoop:执行MR出错(2)HBase:RegionServer会自动停止bigdata112: HMaster、Zoo...原创 2019-04-02 08:10:19 · 1137 阅读 · 0 评论 -
HBase伪分布模式的安装与配置
一、伪分布模式介绍特点:一个ZK、一个HMaster、一个RegionServer。一台机器完成Hbase所有组件的配置,需要依赖HDFS分布式存储。Hbase单机模拟Hbase数据库集群 ,主要是用于实验。二、安装并配置HBase和JDK环境变量(1)使用tar命令解压tar -zxvf jdk-8u191-linux-x64.tar.gz -C ~/training/tar -zx...原创 2019-01-09 22:26:01 · 1827 阅读 · 0 评论 -
HBase本地模式的安装与配置
一、本地模式介绍    特点:本地模式不依赖于HDFS存储,将文件存储到操作系统本地目录,好处是我们不需要搭建HDFS集群,即可学些HBase相关命令及客户端操作。二、安装并配置HBase和JDK环境变量(1)使用tar命令解压tar -zxvf jdk-8u191-linux-x64.tar.gz -C ~/training/tar -zxvf...原创 2019-01-09 22:24:01 · 2102 阅读 · 0 评论 -
MapReduce程序数据清洗
一、首先准备好需要的清洗的数据二、将数据导入项目中,在项目下新建input(原数据),output(清洗过后的数据),如下图所示:三、导入所需要的jarhadoop-2.8.5\share\hadoop\common*jarhadoop-2.8.5\share\hadoop\common\lib*jarhadoop-2.8.5\share\hadoop\hdfs*jarhadoop-2...原创 2019-03-26 22:22:49 · 10621 阅读 · 8 评论 -
Hadoop的API操作遇到的坑
问题一:压缩包莫名不能上传,但像TXT文档可以上传 如下图,主要是隐藏了文件扩展名解决办法:如下图原创 2019-03-26 16:55:03 · 296 阅读 · 0 评论 -
HDFS使用JavaAPI操作
一、首先自然是导包 $HADOOP_HOME/share/hadoop/common/*.jar $HADOOP_HOME/share/hadoop/common/lib/*.jar $HADOOP_HOME/share/hadoop/hdfs/*.jar $HADOOP_HOME/share/hadoop/hdfs/lib/*.jar二、代码如下pack...原创 2019-01-03 20:47:41 · 197 阅读 · 0 评论 -
使用JavaAPI操作HDFS创建目录和权限问题
一、创建目录1.首先在虚拟Linux上找到jar包 $HADOOP_HOME/share/hadoop/common/*.jar $HADOOP_HOME/share/hadoop/common/lib/*.jar $HADOOP_HOME/share/hadoop/hdfs/*.jar $HADOOP_HO...原创 2019-01-03 20:26:54 · 7224 阅读 · 0 评论 -
使用插件用Eclipse操作HDFS
一、准备插件. 链接:https://pan.baidu.com/s/1yU4aPq3NvC2NvTSyvM0CSA 提取码:nnaf二、安装插件: Eclipse插件安装: 1、解压Hadoop-2.7.3.tar.gz(windows)2、安装Eclipse3、将插件文件hadoop-eclipse-plu...原创 2019-01-03 21:28:50 · 286 阅读 · 0 评论 -
Hadoop配置历史服务器和日志聚集
为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:1. 配置mapred-site.xml[atguigu@hadoop101 hadoop]$ vi mapred-site.xml在该文件里面增加如下配置。<!-- 历史服务器端地址 --><property><name>mapreduce.jobhistory.address&原创 2019-03-05 16:12:35 · 871 阅读 · 0 评论 -
Hadoop集群时间同步NTP
一、集群时间同步介绍 时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。NTP服务器【Network Time Protocol(NTP)】是用来使计算机时间同步化的一种协议,它可以使计算机对其服务器或时钟源(如石英钟,GPS等等)做同步化,它可以...原创 2019-09-05 01:56:36 · 3268 阅读 · 2 评论 -
Hadoop完全分布式的安装与配置
一、完全分布式安装介绍真正的分布式,由3个及以上的实体机或者虚拟机组件的机群。二、关闭防火墙这是CentOS7版本命令:systemctl status firewalld.service -->查看防火墙状态systemctl stop firewalld.service —> 如果重启,会重启防火墙systemctl disable fir原创 2019-04-16 22:53:25 · 743 阅读 · 0 评论 -
Hadoop集群脚本工具rsync、xsync和xcall
一、 rsync 远程同步工具 rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。 rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。 (1)基本语法 rsync -rvl $pdir/$fname $user@ha...原创 2019-04-01 13:41:10 · 1358 阅读 · 0 评论 -
Hadoop伪分布式模式的安装与配置
一、伪分布式模式安装介绍 那么伪分布式就是假分布式,假在哪里,假就假在他只有一台机器而不是多台机器来完成一个任务,但是他模拟了分布式的这个过程,所以伪分布式下Hadoop 也就是你在一个机器上配置了hadoop的所有节点。特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能HDFS:NameNode + DataNode + SecondaryNameNodeYarn:R...原创 2019-01-09 22:29:58 · 1305 阅读 · 0 评论 -
Hadoop常用Shell操作
一、普通操作命令:hadoop fs 适用于任何不同文件系统,比如本地文件系统和HDFS文件系统hadoop 只能适用于HDFS文件系统hdfs fs 跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统常用普通命令: 1.创建目录 -mkdir -p 加上-p表示递归创建目录 2.查看目录 -ls -ls -R 查看目录...原创 2019-03-27 17:58:13 · 334 阅读 · 0 评论 -
Hadoop本地模式的安装与配置及官方测试WordCount程序
错误描述:ERROR 1045 (28000): Access denied for user ‘root’@‘localhost’ (using password:yes)解决方法:1、停止mysql服务:systemctl stop mysqld.service2、修改配置文件无密码登录vi /etc/my.cnf在最尾部加上skip-grant-tables 这是表示没有密码可...原创 2019-01-09 22:10:03 · 511 阅读 · 0 评论 -
Xshell5连接不上Linux的问题解决(NET模式指定静态IP)
        NET模式下之所以能上网是通过在自己电脑形成一个局域网,NET模式的网段和Windows的网段能通信,然后访问外网。下面是在NET模式上新建一个宿主机IP形成一个局域网。(仅仅是个人理解,有错望指出,一起学习)...原创 2019-03-05 16:33:39 · 2540 阅读 · 0 评论 -
解决Centos7关闭You have new mail in /var/spool/mail/root提示
一、问题运行一个命令就会出现“You have new mail in /var/spool/mail/root ”很烦人。[root@HP112 hbase-1.3.1]# jps11381 DataNode11477 SecondaryNameNode11574 HRegionServer12167 JpsYou have new mail in /var/spool/mail/...原创 2019-04-02 21:04:20 · 3538 阅读 · 0 评论 -
CentOS7的安装
一、下载镜像可以参考清华的镜像文件下载站:https://mirrors.tuna.tsinghua.edu.cn/下载CentOS7版本,CentOS7和RedHat的安装方式一模一样,RedHat7需要钱所以没有(可自行网上搜索,需要可以留言告之)。二、开始安装这里用的是VMware12这个软件,安装方式简单就不操作了。。。安装RedHat Linux 7.41.创建新的虚拟机...原创 2019-01-09 21:47:34 · 270 阅读 · 0 评论