自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 解决使用Kittle从MySql导入数据到hive表中数据不显示

先看问题kittle没报错但数据没有同步到hive,表中字段无数据解决方法:首先要确保连接mysql的数据是可以正常预览在字段选择中尤其要注意字段类型是date类型hdfs输出就要把date改成出utf8在这里插入图片描述然后在修复分区数据库中的表msck repair table itcast_ods.itcast_orders;msck repair table itc...

2020-05-07 17:05:25 428

原创 开发JavaAPI操作HBase表数据

maven的pom文件<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> ...

2020-01-07 08:57:35 395

原创 Hbase底层原理

系统架构Client:访问数据的入口,包含访问hbase的API接口,维护着一些cache来加快对hbase的访问Zookeeper:1 zookeeper的选举机制保证任何时候,集群中只有一个master2 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master3 存储Hbase的schema,4 存贮所有Region的寻址入...

2019-12-16 21:24:40 153

原创 配置局域网yum源

在已经配置挂载好的本地yum源的前提下开启http服务,在var根目录下将会生成www,在www目录下有个 html目录将挂载在 mnt 目录下的镜像cdrom 拷贝到 指定 **var/www/html/**目录下(等待时间会有点长)cp -r cdrom/ /var/www/html/在另一个要链接节点配置好的 cd /etc/yum.repos.d 本地yum源中修改配置...

2019-12-09 21:24:06 143

原创 该怎么理解 Flume组件?

1. 日志采集框架Flume1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具备良...

2019-12-07 10:50:27 141

原创 什么是Apache Hue?

1.Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作HD...

2019-12-07 10:39:15 237

原创 该怎么理解Apache Sqoop?

Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具,用于数据同步Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、Oracle、DB2等...

2019-12-07 10:07:02 116

原创 解决安装Azkaban时遇到的 version 52.0问题

运行Azkaban遇到如下错误问题概括1.可能是JDK的version版本问题2.配置环境时出错解决方式一:查看当前JDK版本1.7.0版本的JDK不兼容Azkaban,换个1.8的版本就ok解决方式二:配置修改时区打开 vim conf/azkaban.properties修改 default.timezone.id=Asia/Shanghai#修改时区Azkaba...

2019-12-06 17:11:51 343

转载 解决Flume中telnet: connect to address 127.0.0.1: Connection refused拒绝连接

解决telnet: connect to address 127.0.0.1: Connection refused拒绝连接今天在使用flume 输入命令:Telnet localhost 44444之后系统显示:Trying ::1…telnet: connect to address ::1: Connection refusedTrying 127.0.0.1…telnet: c...

2019-12-04 21:36:37 3593 2

原创 HDF机制面试题

怎么理解分布式?(计算和存储)分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。0.分布式存储,是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,将这些分散的存储资源构成一个虚拟的存储设备,数据分散存储在企业的各个角落,多台服务器Hadoop 的组成部分HDFS 分布式文件存储系统管理者:Name...

2019-11-29 17:19:09 232

原创 Hive考核面试题

1、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。2、Hive的意义(最初研发的原因)背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。意义(目的):降低程序员使用hadoop的难度。降低学习成本。3、Hive的内部组成模块,作用分别是什么元数据:描述数据的数据(属性)表名称、字段名...

2019-11-29 17:13:42 370

原创 Linux集群中解决Hive交互shell中 show databases没有反应(包含Hive按照步骤)

1.第一种解决方案在Hive服务中输入命令行代码一定要规范,输入完命令行代码后要以 ; 结尾错误示范效果(没有以 ; 结尾的)示例:Hive 服务都是不识别的正确示范效果如果不是如上所述那就只能逐一排查第二种解决方案(包含安装Hive)第一步:查看系统自带的mysql的rpm包 (确认是否少包)rpm -qa | grep mysql第二步:安装mysql的rpm包...

2019-11-19 18:18:21 2535

转载 Java上传文件到Linux,显示乱码解决方法

在windows系统下 默认编码是GBK/GB2312的编码格式,linux上默认为utf-8的编码格式。当我们在windows上上传文件的时候,JVM会根据本身的操作系统所默认的编码格式 编译成unicode字节数组,进行存储。然后解析的时候也会根据本身的操作系统默认的编码格式进行解析。上传文件中文乱码时:  JVM编译成gbk格式的unicode字节数组,然后解析成utf-8...

2019-11-18 16:02:24 2094

原创 MapReduce核心思想及其步骤原理

1.1MapReduce核心思想分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小任务,最终合并。MapReduce是由Map和Redecu组成Map:将数据进行拆分Reduce:对数据进行汇总1.2偏移量行首字母或字符移动到当前文件的最前面需要移动的字符个数1.3Hadoop与Java数据类型对比Java类型:int、long、double, float、 boo...

2019-11-14 20:54:53 1464

原创 MapReduce计算框架初体验!!

1.1.理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎...

2019-11-13 11:53:10 134

转载 什么是CAP定理

转载自 什么是CAP定理计算机界有很多高大上又难于理解的术语,CAP就是其中之一, 什么一致性(Consistency), 可用性(Availability), 分区容错性(Partition tolerance) 就很难理解了,  再加上CAP定理更是让人云里雾里,  今天咱们...

2019-11-12 09:53:30 138

原创 解决DataNode的ID相同导致开启集群查看Web界面其他节点未能连接成功

查看 vim /etc/hosts主机ip和节点的映射关系是否正确查看 cd export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/ 在打开vim slaves 是否添加节点如果是克隆的话那么克隆的话DataNode的ID一定是相同的,会导致Web界面,识别出两个一种的唯一ID,解决办法在主节点关闭集群,在克隆的节点删除hadoopDatas...

2019-11-08 18:18:31 431

原创 在主节点删除NameNode的Fsimage和Edits后在尝试jps主节点的NameNode还在解决方法

在删除HDFS的Fsimage文件系统的镜像后和删除HDFS的文件日志Edits发现集群处于safemode(安全模式下)模式,此时我们用 kill -9 NameNode 杀死这个进程,后再从SNN(SecondaryNameNode)Fsimage和Edits在cp到NN(NameNode),在重启集群就可以解决...

2019-11-06 10:58:42 269

原创 Hadoop集群配置与HDFS介绍

HDFS 文件系统的容量理解:将多个节点的容量汇总成一个大的文件系统,在一个节点上传数据,在其的节点上都能够访问使用Hadoop的组成HDFS(海量数据存储系统),MapReduce(海量数据的计算系统计算框架),Yarn(集群资源管理框架)HDFS的管理者:NameNode作用:1、维护 管理文件系统的名字空间(元数据信息)2、负责确定指定的文件块到具体的Datanode结点的映...

2019-11-05 09:11:02 249

原创 物理重启电脑后打开VMware虚拟机繁忙黑屏无法关闭,或者是该虚拟机正在使用中无法打开解决办法?

1.如果是黑屏导致无法关闭或者是该虚拟机进程正在使用中,只能通过任务管理器强制结束任务VMware进程2.首先找到该虚拟机的存放位置路径,手动删除其中的后缀为.lck的文件夹,再次打开虚拟机即可(记得要删干净哦)...

2019-11-05 08:15:26 2261

原创 大数据集群搭建(CDF分布式环境搭建)

目标:搭建基于CDH的分布式集群安装环境服务部署规划2013年说大数据只包括HDFS,MapReduce,2019年说大数据包括HDFS,YARN,MapReduce

2019-11-04 14:37:34 578

原创 大数据的介绍(概念)

什么是大数据? 大数据:指的是数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据大数据的主要特点海量化 数据量从TB到PB级别多样化 数据类型复杂,超过80%的数据是非结构化的快速化数据量在持续增加(两位数的年增长率)数据的处理速度要求高高价值在海量多样数据的快速分析下能够发挥出更高的数据价值大数据能做什么?海量数据背景下...

2019-10-24 17:29:35 300

原创 卸载http后在安装http下载报错解决方式

1.确保本地yum源文件在 cd /etc/yum.repos.d 目录里,不能移到文件夹中要不然下载时会找不到yum源文件2.yum -y insall httpd 再次下载httpd 应该正常下载成功3.再次启动httpservice httpd start...

2019-10-24 16:57:35 317

原创 Linux集群部署ssh免密登录

1.1集群部署(三台)1.第一步克隆虚拟机(需要注意的是存储路径不能有中文,勾选时创建完整克隆)2.建议关闭防火墙(不然会出很多问题)需要在克隆的三台主机进行设置,查看防火墙的状态service iptables status启动防火墙服务service iptables start重启 防火墙 服务service iptables restart-停止 防火墙 服务serv...

2019-10-23 21:24:35 261

原创 如何将新硬盘挂载到Linux 系统上(开机自动挂载)iso 镜像挂载 yum源仓库本地资源库rpm 查询安装卸载

1.1目标第一步:添加一个硬盘给予指定磁盘大小第二步: 分区第三步: 格式化第四步: 挂载第五步:设置自动挂载后 重启不失效1.添加新硬盘1.点击虚拟机2.点击设置3.添加新硬盘重命名选择安装位置 ------> 安装磁盘后 重启虚拟机才能生效4.查看当前系统的挂载情况查看系统硬盘挂载情况: lsblk -f (老师不离开 的...

2019-10-18 11:20:51 835

原创 Linux 解压缩用户权限组管理切换用指定用户 授予 权限时间日期日历磁盘剩余空间进程信息

Linux中解压缩命令1.第一步: 打包 和 解包打包 类似将 冬天的衣服 放到 袋 打包之后的大文件或目录 需要以 .tar 结尾. tar 打包命令格式将一系列文件 打包成一个大文件tar -cvf 打包名 .tar 被打包的目录tar -cvf 打包名…tar 被打包的文件1 被打包的文件1 被打包的文件1tar 选项说明命令英文含义ccreat...

2019-10-17 08:43:07 653

原创 Linux常用命令大全集

*Linux常用命令大全*ifconfig 作用: 1.查看/配置计算机当前网卡 信息ping 作用: 1.检查到目标IP地址的连接是否正常service network restart 作用: 1. 重...

2019-10-13 16:48:51 1305 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除