mapreduce
文章平均质量分 58
码上_成功
一个靠代码谋生的小人物
展开
-
Hbase之RM读写
将HBASE_CLASSPATH加入环境变量:export HBASE_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`Hbase建表:create “stu”,“info”,“info1”需要准备hadoop、zookeeper以及hbase集群。并将准备的如下数据上传hdfs,数据按照\t拆分。hive-site.xml文件添加如下配置。数据:最前面准备的stu.txt。分析数据并插入结果表。原创 2023-05-22 22:50:12 · 421 阅读 · 0 评论 -
MR之ReduceJoin
MR之ReduceJoin前言一、实现思路二、具体代码1.OrderBean类2.ReduceJoinMapper类3.ReduceJoinReduce类4.RecudeJoinDriver类前言前一篇文章将了下MapJoin,其实ReduceJoin和MapJoin类似,只不过一个是在Map端匹配,一个是在Reduce端匹配,各有各的优势。一、实现思路和MapJoin类似,也是通过读取二个文件,文件的大小可以很大,通过FileInputFormat读取文件,读取到文件后需要获取文件的名称,通过文原创 2021-07-14 11:17:30 · 313 阅读 · 0 评论 -
MR之MapJoin
MR之MapJoin前言一、实现思路二、具体代码1.MapJoinOrderBean类2.MapJoinMapper类3.MapJoinReduce类4.MapJoinDriver类三、运行注意点四、个人运行结果总结前言有一个商品文件和一个订单文件,其中订单文件记录了商品文件的编号,而商品文件中有商品的中文名称。需求:需要输出一个订单文件,字段为:商品名称、商品总量、总金额。一、实现思路我们需要读取商品文件形成一个Map集合,再通过订单文件中的商品id,在Map集合中找到商品名称,再实现对应的原创 2021-07-12 12:00:11 · 407 阅读 · 0 评论 -
MR之自定义分区
MR之自定义分区前言一、如何自定义分区?二、业务需求二、自定义分区1.CusPartition类2.CusParMapper类3.CusParReduce类四、注意点前言对于MR而言,数据输出的时候是HashPartitioner分区器来进行数据的分区输出,对于这类的分区器,在某些业务情况下不满足要求,这个时候就需要自定义分区器来满足需求。一、如何自定义分区?需求自定义分区,则需要定义一个class类,需要继承Partitioner类,重写getPartition放法,再getPartitio原创 2021-06-28 19:36:20 · 496 阅读 · 0 评论 -
MR之词频统计
MR之词频统计前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言本文将的是大数据入门程序词频统计,简单的代码编程,通俗易懂。一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport原创 2021-06-21 14:32:18 · 578 阅读 · 0 评论 -
WIN10下安装HADOOP
WIN10下安装HADOOP前言一、软件下载二、安装JDK三、安装hadoop总结前言在window上面安装hadoop,方便本地环境运行Mapreduce程序,方便调试,跟踪运行流程,更好的掌握MR的运行流程。一、软件下载网盘下载 提取码:lqzq二、安装JDK1、下载好软件,选好安装目录,一路下一步即可2、配置好环境变量,如下图3、验证安装win + r 再输入cmd进入window命令行输入java -version 三、安装hadoop1、将网盘下载的hadoop-2原创 2021-06-16 17:02:25 · 762 阅读 · 2 评论