![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算、大数据
文章平均质量分 83
brz_em
坚持,努力,加油,不忘初心,方得始终,即使一切都很困难
展开
-
Fuel-Openstack的搭建(一)
Openstack和Fuel-Openstack简介本次环境搭建是使用fuel搭建的openstack平台,以下是对Openstack和Fuel-Openstack的简介。1.1 OpenstackOpenStack是一个由NASA(美国国家航空航天局)和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。OpenStack是一个开源的云计算管理...原创 2018-08-29 12:41:47 · 18669 阅读 · 15 评论 -
hive详解(操作)
hive操作创建表的本质:在hdfs的/user/hive/warehouse下的对应的库目录下创建表目录删除表的本质:删除表数据对应的目录加载数据:(1)values(不建议使用,耗时太长)insert into t_2 values('1','zhangsan');我们可以看到,这个时间(虽然与我的集群运行速度有关),但实在是太慢了。(2)put操作(即上传文件)hdf...原创 2018-09-29 20:54:27 · 820 阅读 · 0 评论 -
hive详解(分区&分桶)
分区&分桶分区为什么有分区?随着系统运行时间增长,表的数据量越来越大,而hive查询时通常是是全表扫描,这样将导致大量的不必要的数据扫描,从而大大减低查询效率。从而引进分区技术,使用分区技术,避免hive全表扫描,提升查询效率。可以将用户的整个表的数据在存储时划分到多个子目录,从而在查询时可以指定查询条件(子目录以分区变量的值来命名)eg:year=‘2018’。怎么分区?根...原创 2018-09-29 21:20:39 · 20964 阅读 · 1 评论 -
hive详解(函数)
内置函数:show functions; 查看函数desc function; 查看用法排名函数:(3种)row_number():没有并列,相同名次按顺序排(同分不同名)rank():有并列,相同名次空位dense_rank():有并列,相同名次不空位班级成绩排名前三的:create table stu_score(classId string,userN...原创 2018-10-08 21:43:39 · 995 阅读 · 0 评论 -
hbase(一)
为什么有hbase?随着数据量越来越大,传统的关系型数据库不能满足存储需求,hive虽然能满足存储,但是不能满足非结构化或者半结构化的数据存储和高效查询。HBASE是什么?Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.Use Apache HBase™ when you need ...原创 2018-10-10 20:35:08 · 203 阅读 · 0 评论 -
hbase(二)
hbase与hive的整合数据存储、查询 数据分析整合的目的:hbase中表的数据在hive中能够查询到hive中表的数据在hbase中能够查询到整合的步骤:1、在hive中创建hbase能看到的表create table if not exists hbase2hive(uid int,uname string,age int)stored by 'org.apache....原创 2018-10-22 21:16:19 · 163 阅读 · 0 评论 -
影评项目(hive)
现有如此三份数据:1、users.dat数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt,Gender String,Age Int,Occupation String,Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat数据格式为: 2::Jumanji (1995)::Adventur...原创 2018-10-21 10:08:47 · 1261 阅读 · 0 评论 -
消息队列
消息队列简介消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,高可用,可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。目前在生产环境,使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等。消息队列应用场景介绍以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流...原创 2018-11-10 21:25:22 · 161 阅读 · 0 评论 -
kafka
KAFKAkafka简介分布式流处理平台,可以实时简单处理流数据,而且是一个分布式的,容错的,多副本的临时存储系统。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。一般应用在大数据日志处理或对实时性(少量延迟),可靠性(少量丢数据)要求稍低的场景使用。官网:http://kafka.apache.orgkafka特点:Apache...原创 2018-11-15 15:01:16 · 357 阅读 · 1 评论 -
如何下载CDH版本的Hadoop生态圈工具
最近下载CDH版本的Hadoop工具,点击下载链接发现都跳转到Apache官网上去了,最后通过在后面加上.tar.gz就可以下载了 。CDH的下载工具都在http://archive.cloudera.com/cdh5/上,现在是cdh5的版本。比如下载zookeeper:只需在http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-c...原创 2019-03-08 18:19:26 · 1041 阅读 · 0 评论 -
hive详解(一)
1、Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。Hive是由Facebook开源用于解决海量结构化日志的数据统计的工具。 在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处理,而Hive是构建在Hadoop之上的数据仓库,包括以下方面: (1)使用HQL作...原创 2018-09-28 20:51:07 · 1336 阅读 · 0 评论 -
Hadoop知识点总结(一)
HADOOPhadoop的概念Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它主要有以下几个优点:高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。...原创 2018-09-28 17:54:28 · 3661 阅读 · 1 评论 -
hive查询时怎么显示字段名?
在hive查询中我们发现hive的查询输出不显示列名,怎么解决呢?解决办法:进入hive cli后: set hive.cli.print.header=true;hive> select * from ratings limit 5;OKratings.userid ratings.movieid ratings.rating ratings.timestamped1 1193 ...原创 2018-10-04 16:55:46 · 10741 阅读 · 4 评论 -
Fuel-openstack的搭建(二)
部署Openstack3.1 登陆登陆http://10.20.0.2:8000,账号:admin ,密码:admin 注:如果无法登陆,则需要去打开隧道后进行登陆。3.2 新建openstack环境登录后,点击新建openstack环境图标填写openstack环境名。点击“前进”。 选择QEMU-KVM选项。点击“前进”。 选择使用N...原创 2018-08-29 12:57:28 · 4416 阅读 · 9 评论 -
hadoop:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using b
在使用bin/hdfs dfs -mkdir /user 创建目录时,会有一个警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 问题在哪里?有人说这是hadoop的预编译包是3...转载 2018-09-11 19:54:52 · 167 阅读 · 0 评论 -
CentOS:写一个脚本,给每一台主机装上JDK,并配好环境变量
当我们有很多台主机,想在每台机器上都安装一样的某些软件时,可以通过脚本去实现。首先我们需要搭建一台服务器,并把软件包放在我们的服务器上(注:搭建服务器之前有介绍,这里就不写了,感兴趣的朋友可以翻看之前内容,链接:https://blog.csdn.net/qq_35180983/article/details/82490613,我们这里使用nginx服务器来做)首先创建一个文件夹noar...原创 2018-09-11 21:10:36 · 586 阅读 · 0 评论 -
Hadoop
HADOOP介绍1、 什么是HADOOP(1)HADOOP是apache旗下的一套开源软件平台(2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理(3)HADOOP的核心组件有: HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架)(4)广义上来说,HADOOP通常是指一个更广...原创 2018-09-17 23:47:00 · 8691 阅读 · 0 评论 -
HDFS
一、HDFS前言设计思想:分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务二、HDFS介绍HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据...原创 2018-09-17 23:56:20 · 305 阅读 · 0 评论 -
HDFS读写流程
HDFS存储数据架构图HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。Client:就是客户端。 1、切分文件:文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。 2、与 NameNode ...原创 2018-09-23 14:31:08 · 280 阅读 · 0 评论 -
Hadoop:完全分布式搭建
此集群三个节点基于三台虚拟机(hadoop01、hadoop02、hadoop03)进行搭建,虚拟机安装的操作系统为Centos6.5,Hadoop版本选取为2.9.1。实验过程1、基础集群的搭建下载并安装VMware WorkStation Pro,链接:https://pan.baidu.com/s/1rA30rE9Px5tDJkWSrghlZg 密码:dydq下载CentO...原创 2018-09-14 06:40:37 · 728 阅读 · 0 评论 -
Centos:Zookeeper安装与配置详解
zookeeper:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务,但是zookeepe...原创 2018-09-19 17:30:28 · 2281 阅读 · 0 评论 -
HBASE启动后,HRegionServer起不来
HBASE启动后,HRegionServer起不来,查看日志:org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoop02.brz.com,60020,1556013927947 has been rejected; Repor...原创 2019-04-23 18:16:54 · 1540 阅读 · 0 评论