大数据
文章平均质量分 53
Gao__xi
这个作者很懒,什么都没留下…
展开
-
阿里云主机搭建Hadoop伪分布,支持windows上上传文件
问题产生1.我是使用阿里云的公网ip搭建,NameNode搭建不起来2.查看logs中的namenode日志,日志上让我去confluence中查看3.个人感觉是下图红色标注的问题4.总结就是说,云服务器Hadoop伪分布式就别用公网ip了。使用内网ip搭建Hadoop伪分布我省略ssh,hadoop包的下载解压。1.修改hosts 文件将主机名映射到 内网ip2.修改Had...原创 2020-01-13 22:04:55 · 262 阅读 · 0 评论 -
ZooKeeper的选举机制
1.选举时用到的一些变量myId:在配置ZK集群时每个主机上都会在myId文件中指定自己的myIdepochId:在这个集群中每当进行1次选举时,epochId就会+1,正如中文翻译一样,时代,指的就是,当前leader是第几代主节点逻辑时钟值:具体记录啥我也不知道,应该是时钟信息,主要控制当前参与投票的节点属于同一轮的选举中。举例:如果我们现在进行第3轮选举,我接到第2轮的选举信息,显然...原创 2019-10-24 20:25:52 · 228 阅读 · 0 评论 -
Hive分区
创建一个完整的表(nba表)https://blog.csdn.net/Gao__xi/article/details/89296411创建分区表(按球队分区)导入数据原创 2019-04-25 11:07:49 · 170 阅读 · 0 评论 -
Hive的数据库,表的存储位置
Hive数据存储位置可以看到,在default数据库中的表的存储位置 /user/hive/warehouse其他数据库的表会在 /user/hive/warehouse/xxx.db/...原创 2019-04-25 10:40:48 · 11242 阅读 · 0 评论 -
Zookeeper
是什么??ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。(应用程序协调服务, 重要组件 , 一致性 )为什么要学习Zookeeper?使用Zookeeper可以协调客户端和服务器端,比如客...原创 2019-04-20 15:29:49 · 123 阅读 · 0 评论 -
Hive操作初步体验
文件内容建表语句数据导入语句查询数据hdfs文件系统中声称结果好像只是将文件从本地复制到了hdfs 下 的 /user/hive/warehouse/nba/ 的路径下原创 2019-04-14 14:50:24 · 147 阅读 · 0 评论 -
Hive基础(1)
What?hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。可以将sql语句直接转换成MapReduce任务的一个工具Why?其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。...原创 2019-04-13 14:56:45 · 121 阅读 · 0 评论 -
Pig Latin语言运算符
运算符(使用本地模式)1.LOAD运算符 LOAD ‘路径名’ USING PigStroage(‘分割符’) AS (表结构)注 路径名如果是 本地模式,就是linux路径 若是mapreducer模式则是 hdfs路径 ,分割符默认是 ‘\t’2.DUMP(查看关系中的数据是以元组的形式返回)3.DESCRIBE 关系名小结:以上三个操作,类似于将文件内容导入数据表中 ...原创 2019-04-13 11:28:19 · 686 阅读 · 0 评论 -
Pig组件学习笔记(1)
What?Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。就是个工具用于用于大数据分析Why?如果没有pig组件,我们会用Java写MapReducer程序,进行大数据分析,可是如果我不会写Java,我怎么进行数据...原创 2019-04-12 20:30:10 · 654 阅读 · 0 评论 -
大数据基础考前复习(2)
通过Java程序对hdfs文件系统进行操作1.创建文件夹public class MkDir { /** * @param args * @throws Exception * 1.获取文件系统对象 * 1.1 获取配置信息 * 1.2 获取hdfs(文件系统)路径 * 1.3 得到文件系统对象 *2.创建文件夹 *3....原创 2019-04-03 15:37:58 · 493 阅读 · 0 评论 -
大数据考前基础复习(1)
Hadoop文件系统的一些文件命令1.创建文件夹(hdfs dfs -mkdir /文件夹名称)2.上传文件(hdfs dfs -put 本地文件路径 hdfs路径)3.展示文件列表(hdfs dfs -ls hdfs路径)4.下载文件(hdfs dfs -get hdfs路径 本地路径)5.删除(hdfs dfs -rm hdfs路径)还有很多基本上是 ...原创 2019-04-03 14:41:52 · 367 阅读 · 0 评论 -
MapReduce的Job提交运行流程
运行图客户端client运行job任务(就是我们写好的Java程序,点击运行),之后,会为我我们检查路径,配置之类的错误出错了,就在控制台报了异常。成功后生成一个Job任务,此时向 resourcemanager申请提交次Job。resourcemanager会为此任务返回一个JobID,并告诉这个job,把job自己的资源,jar,配置信息发送到hdfs上Job得到这个响应了,自然将...原创 2019-03-26 20:12:29 · 273 阅读 · 0 评论