- 博客(7)
- 收藏
- 关注
原创 2020-12-18
一、HDFS介绍上篇文章已经讲到了,随着数据量越来越大,在一台机器上已经无法存储所有的数据了,那我们会将这些数据分配到不同的机器来进行存储,但是这就带来一个问题:不方便管理和维护所以,我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行统一管理,这就有了分布式文件系统HDFS是分布式文件系统的其中一种(目前用得最广泛的一种)在使用HDFS的时候是非常简单的:虽然HDFS是将文件存储到不同的机器上,但是我去使用的时候是把这些文件当做是存储在一台机器的方式去使用(背后却是多台机器在执行):
2020-12-18 15:33:23 121 1
原创 json
一、什么是json?json的全称为:JavaScript Object Notation,是一种轻量级的数据交互格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。【以上来自于百度百科】简单来说:json就是一种在各个编程语言中流通的数据格式,负责不同编程语言中的数据传递和交互。类似于:国际通用语言-英语中国56个民族不同地区的通用语言-普通话。但真要说json到底是什么,以及json的作用,我们总是难以描述,下面我
2020-11-20 16:19:48 149
原创 hive行转列与列转行
**第一部分:行转列*1.简单行转列:将一个融合多个信息的字段拆分成多行步骤:先用split切开按照,进行分隔成数组的形式 ["aaa","bbb","ccc"] 然后再用explode函数炸开,将一行分成多行 (1)将一个融合多个信息的字段拆分为多行aaa,bbb,ccc ===> aaa bbb ccc (2)实现方法:利用内置UDTF函数explode实现split('aaa,bbb,
2020-11-15 21:41:46 6964
原创 IDEA文件列表无法显示.log文件
IDEA文件列表无法显示.log文件思路:当文件查看历史记录发现确实存在,但却在列表中看不见时,要首先考虑是否被隐藏、此格式是否允许显示如图所示,无论怎么生成log文件,idea文件列表始终不显式在这里插入图片描述解决方法打开setting 打开File Types 选择文本文档Text,添加后缀*.log然后就可以正常显示啦~~...
2020-09-05 10:27:57 3026
原创 HBASE遇到的zookeeper相关问题
HBASE遇到的zookeeper相关问题:提示error: KeeperErrorCode = NoNode for /hbase/master并伴随着有一个Hmaster自己挂掉1、zookeeper的客户端,/opt/module/bin/zkCli.sh是启动zk客户端的文件,使用绝对路径可以直接启动,如果进到了bin目录下,则需要加./zkCli.sh进入客户端。[atguigu@hadoop202 bin]$ ./zkCli.shConnecting to localhost:218
2020-08-21 18:38:05 758
原创 MapReduce
一、Hadoop的四大组件**HDFS:**分布式存储系统**MapReduce:**分布式计算系统**YARN: hadoop 的资源调度系统**Common:**以上三大组件的底层支撑组件,主要提供基础工具包和RPC框架等二、MapReduce:Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架,它把大量分布式程序都会涉及的到的内容都封装进了,让用户只用专注自己的业务逻辑代码的开发。它对应以上问题的整体结构如下:MRAppMaster:MapReduce Appl
2020-07-22 18:01:14 134 1
原创 MapReduce,shuffle的理解,精简
Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架,它把大量分布式程序都会涉及的到的内容都封装进了,让用户只用专注自己的业务逻辑代码的开发。 它对应以上问题的整体结构如下:...
2020-07-22 16:51:43 93
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人