自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 hbase的api

HBase的java代码开发1.创建maven工程,导入jar包 cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ <dependencies> <dependency> ...

2020-01-07 09:34:28 190

原创 HBase 进入shell窗口出现异常如何解决

进入hbase窗口编写代码出现报错这是因为zookeeper启动出现问题,zookeeper的启动出现问题时因为没有正常关闭zookeeper导致的但是单查询jpszookeeper时开启的没有问题解决方案看到zookeeper没有在运行查看他的进程号杀掉进程其他节点也要杀掉zookeeper的进程在重新启动其他节点的zookeeper再次重新开启服务就可以正...

2019-12-17 16:23:21 1363 3

原创 HBase的基本原理

HBase的基本介绍HBase是建立在hdfs之上的一个数据库,不支持join等sql等复杂操作.支持的数据类型:byte[],依靠横向扩展一个表可以有上十亿行,上百万列。面向列(族)的存储和权限控制对于为空(null)的列,并不占用存储空间,是一个稀疏表。HBase的适用场景海量数据,精准查询,快速返回海量数据:指的是数据量的背景精准查询:业务场景快速返回:是业务对时效性的要求...

2019-12-12 21:36:44 859 4

原创 HBase的安装部署

HBase的安装部署1、软件包上传解压2、 配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xmlvim hbase-site.xml <configuration> <property> <name>hbase.ro...

2019-12-12 21:17:17 381 4

原创 lmpala

lmpala的安装部署1.安装前提集群提前安装好hadoop,hive。hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。2.上传压缩包节点内存要大于10个G3.解压压缩包tar -zxvf cdh5.14.0-centos6.tar.gz4...

2019-12-10 17:38:32 614 2

原创 ZooKeeper

ZooKeeperZooKeeper概念Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。ZooKeeper特...

2019-12-09 16:04:52 280 1

原创 Flume安装部署

Flume安装部署将安装包上传到节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME自己在conf下创建一个新的文件#定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1...

2019-12-04 22:16:01 632 1

原创 Hive 的总结

1、什么是Hive?是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。2、Hive的意义(最初研发的原因)降低使用hadoop的难度降低学习成本3、Hive的内部组成模块,作用分别是什么解释器:解释 SQL 语句编译器:将sql语句转化成 MR优化器: 优化 MR 执行器:将优化过的MR提交到集群4、Hive支持的数据格式...

2019-11-29 08:32:48 645 1

原创 Hive 自定义函数

Hive的自定义函数函数查看show functions;show function 函数名;desc function extended upper;UDF:一进一出UDAF:多进一出UDTF:一进多出UDF1.创建一个class 继承UDF2.编写exaluate函数,在这里3.打成jar包,并上传4.将jar包添加到hive在hive shell 内 add jar...

2019-11-21 17:15:27 417

原创 Hive 数据库的基本操作

数据库的基本操作1.数据库的增删改查增:create database [if not exists] myhive;删: drop database myhive;(数据库内没有表可以删除,有表不能删除)改:数据库不允许修改查:show database;查看详细信息:desc database myhive;desc database extended myhive;数据库的...

2019-11-20 16:07:49 443 1

原创 Hive 详细安装过程

Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。因为什么使用Hive:直接使用hadoop所面临的问题人员学习成本太高 项目周期要求太短 MapRed...

2019-11-20 11:54:54 307 2

原创 MapReduce 的知识点详解<2>

Shuffle(混洗)shuffle 输入是key value的 listshuffle 输出是key value的listMapReduce计算任务的步骤第一步 :inputFormatinputFormat到hdfs上读取数据将数据传给split第二步splitsplit将数据进行逻辑切分,将数据传给RR第三步:RRRR:将传入的数据转换成一行一行的...

2019-11-13 21:10:58 636 1

原创 MapReduce 的知识点详解<1>

MapReduce 核心思想分而治之,先分后和MapReduce由Map和Reduce组成Map:将数据进行拆分Reduce:对数据进行汇总WordCount计算计算每个单词出现的次数原始数据zhangsan,lisi,wangwuzhaoliu,maqizhangsan,zhaoliu,wangwulisi,wangwu期望的最终zhangsan 2lisi 2w...

2019-11-12 20:55:34 348 1

原创 HDFS新增节点

HDFS新增节点需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。准备新节点第一步准备一台新的虚拟机第二步要关闭防火墙第三步要修改selinux配置文件第四步要修改主机名第五步要更改主机名与ip地址的映射第六步新节点服务器要生成公钥和私钥实现与主机无密码登录第七步新节点要安装jdk以上是添加新...

2019-11-06 21:45:46 257 1

原创 HDFS的特性

HDFS的特性1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。  2、高容错性:数据保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。3、商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件(廉价商业硬件)...

2019-11-05 15:01:58 2580 2

原创 最全 HDFS的读写流程

HDFS文件写入流程1.客户端要写入数据首先要向NameNode发起上传请求,NameNode要检测目标文件是否存在,父目录是否存在,返回是否可以上传。2.客户端请求第一个block应该往DateNode上传在哪里3.NameNode根据配置文件中的备份数量进行分配,返回可用的DataNode的地址4.请求3台DataNode中的一台上传数据,执行流水线复制5.6.数据被分割成一个个...

2019-11-04 20:24:58 500 2

原创 大数据集群安装部署教程

大数据集群安装部署准备工作1.关闭防火墙service iptables stopchkconfig iptables off2.关闭selinuxvim /etc/selinux/config3.修改主机名vim /etc/sysconfig/network4.ssh无密码拷贝数据ssh-keygenssh-copy-id 192.168.100.201ssh-copy-i...

2019-10-31 21:31:25 550 1

原创 为什么这么快 程序员的你必看

大数据技术为什么这么快传统数据与大数据处理方式对比扩展性传统数据:纵向扩展表示在需要处理更多负载时通过提高单个系统处理能力的方法来解决问题。最简单的情况就是为应用系统提供更为强大的硬件。例如如果数据库所在的服务器实例只有2G内存、低配CPU、小容量硬盘,进而导致了数据库不能高效地运行,那么我们就可以通过将该服务器的内存扩展至8G、更换大容量硬盘或者更换高性能服务器来解决这个问题纵向扩...

2019-10-31 21:10:21 252 1

原创 这篇你没读过就out了 一篇让你了解什么是大数据基础知识

什么是服务器服务器: 也称伺服器,是一种高性能计算机,提供计算服务的设备。服务器和电脑功能都是一样的,也可以将服务器称之为电脑,只是服务器对稳定性与安全性以及处理器数据能力有更高要求。比如我们随时浏览一个网站,发现这个网站每天24小时都能访问,为什么呢?原因在于网站服务器不能关闭,要保证长时间稳定运行,并且要承受很多人同时访。要按机箱结构划分分为:塔式服务器刀片服务器机架式服务器又...

2019-10-25 14:55:04 2027 4

原创 大数据入门之 什么是大数据

什么是大数据字面意思理解:大量数据,海量的数据数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点海量化数据量大(多)快速化数据的增长速度块多样化结构化数据高价值海量数据价值高大数据能做什么1.海量数据快速查询2.海量数据的储存(数据量大)3.海量数据的实时计算(离线,立刻马上)4.海量数据的快速计算(与传统的工具相比较)5.数据的挖...

2019-10-23 21:31:37 191

原创 linux 集群

集群的部署1,在虚拟机中实例三个虚拟机主机,三个虚拟主机需要配置IP,且两两之间可以ping通2、关闭防火墙(需要在所有的主机中进行设置) /etc/init.d/iptables stop chkconfig iptables off3、关闭selinux (需要在所有的主机中进行设置) 编辑文件 vi /etc/selinux/config 将SELIN...

2019-10-21 17:21:11 221 2

原创 linux jdk,tomcat的安装过程

**JDK的安装过程1.上传解压jdk安装包,创建两个文件夹mkdir -p /export/soft:将安装包放到soft文件夹下mkdir -p /export/install 将解压后的软件放到install文件夹下2.将jdk安装包解压到文件夹tar -zxvf jdk-8u144-linux-x64.tar.gz(软件包名称) -C /export/install(解...

2019-10-19 17:11:13 129

原创 linux

linux 持有系统镜像 光驱因为 linux系统镜像中包含了常用的软件包, 就不用从网上下载了所以需要挂载 持有系统镜像 的 光驱目标虚拟机, 右键 设置选中 CD/DVD, 浏览 选中本地的 centOS 镜像创建目录 mkdir -p /mnt/cdrom挂载镜像文件 mount /dev/sr0 /mnt/cdrom进入挂载目录, 找到 安照包切换到安装包目录中 cd /...

2019-10-17 19:56:43 153

原创 linux 挂载新的硬盘

linux挂载新的硬盘将一个新的硬盘挂载到linux系统上第一步:查看当前系统磁盘挂载查看系统硬盘挂载情况:lsblk -f(老师不离开)会出现sda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0eea-50e...

2019-10-16 20:17:49 333

原创 linux

管道相关命令“|” 管道,放到一个小的内存里cut根据条件 从命令结果中提取对应的内容-c :按字符选取内容-d ‘分隔符’ :指定分隔符-f n1,n2 :分割以后显示第几段内容head -2 1.txt | cut -d ‘:’ -f 1,2**sort可针对文本文件的内容,以行为单位来排行-u去掉重复的[root@node01 tmp]# sort -u 2.tx...

2019-10-15 20:23:48 112

原创 linux

linx 打包压缩产生的命令打包压缩tar z/jcvf 包的名称 文件的名称或路径z/j:指定压缩格式-c:创建包-v:显示详细信息f:文件名解压缩命令:他人 z/jxvf 包名 -C 解压缩路径-x :表示解压-c:文件解压后写入的路径** 用户组的增删改查**添加组:groupadd 组名查看组:cat /etc/group删除组:groupdel 组名...

2019-10-14 20:09:47 160 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除