自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 windows本地安装spark 运行spark-shell出现系统找不到指定路径

按照网上的教程,安装scala没有问题,可以成功运行:然而运行spark-shell命令后,会提示系统找不到指定路径按照网上说的新建tmp/hive目录然后修改权限什么的都试过了,还是不行。我的环境变量也没有问题,和网上的一样。最后发现是因为安装java时,环境变量中JAVA_HOME我是直接写到bin目录了Path中是直接 %JAVA_HOME%;...

2019-04-25 12:12:33 10390 17

原创 hadoop学习笔记(七)链式处理chainMapReduce

目录什么是链式MapReduce?链式MapReduce的执行规则Hadoop2.0支持的链式处理MapReduce作业任务描述流程分析代码执行结果 什么是链式MapReduce?一些复杂的任务难以用一次MapReduce处理完成,需要多次MapReduce才能完成任务。Hadoop2.0开始MapReduce作业支持链式处理,类似于工厂的的生产线,每一个阶...

2018-12-20 16:56:24 587

原创 hadoop学习笔记(六)MapReduce常见实例三:Join操作(Map端join、Reduce端join、单表join)

目录什么是join?Map端Join任务描述流程分析代码执行结果Reduce端Join任务描述流程分析代码执行结果单表Join任务描述流程分析代码执行结果什么是join? Map端JoinMapReduce提供了表连接操作其中包括Map端join、Reduce端join还有单表连接,现在我们要讨论的是Map端joi...

2018-12-20 16:38:56 802

原创 hadoop学习笔记(五)MapReduce常见实例二:排序(一次排序、二次排序、倒排索引)

目录一次排序MapReduce的默认排序规则Map、Reduce任务中Shuffle和排序的过程流程分析任务描述代码执行结果二次排序 任务描述过程分析代码执行结果倒排索引 任务描述设计思路代码执行过程执行结果 一次排序熟悉MapReduce的人都知道,排序是MapReduce的天然特性!在数据达到reducer之前...

2018-12-20 16:17:26 13586 5

原创 hadoop学习笔记(四)MapReduce常见实例一:去重、求平均值

去重 问题:有一个名为buyer_favorite1的数据文件,记录了用户收藏的商品以及收藏的日期 文件中包含(用户id,商品id,收藏日期)三个字段,数据内容以“\t”分割 要求根据商品id进行去重,统计用户收藏商品中都有哪些商品被收藏,输出去重后所有的商品id和收藏了该商品的用户id 。数据内容如下:用户id 商品id 收藏日期10181 1000481 20...

2018-12-20 15:48:18 1523 2

原创 hadoop学习笔记(三)MapReduce入门 WordCount

之前的hdfs是对集群上的文件进行管理,进行增删改查等操作,只针对文件本身,不针对文件内容。而MapReduce则是对文件内容进行管理。 MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单来说,MapReduce就是”任务的分解与结果的汇总“。大部分人接触MapRe...

2018-12-20 15:24:24 369

原创 hadoop学习笔记(二)hadoop hdfs开发

目录 对文件、目录的操作查看信息查看文件列表、文件状态、文件位置、节点信息文件压缩与解压缩序列化Sequence FileMapFile首先,必须运行hadoop,windows中在hadoop的路径下,sbin目录,start-all.cmd,会跳出四个命令行窗口,不要管它,缩小即可。这个不开启的话,项目无法运行,会报错。还有不要刚开完就运行项目,会进入安全模...

2018-12-20 14:48:58 254

原创 hadoop学习笔记(一)hadoop框架安装与Idea项目环境搭建

开始在章鱼大数据网站上学习hadoop框架,新手菜鸟一个,学习过程中遇到了很多问题,决定开个博客记录一下。 首先是hadoop环境的安装,用的是windows环境下的hadoop2.6.0,找eclipse的jar包找了好久,结果最后也没用上eclipse,在Idea中用maven部署的。废话不多说,下面开始步骤。hadoop官网下载:https://archive.apache.or...

2018-12-20 14:21:10 975

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除