Mapreduce对csv文件数据进行价格排序处理

fgdgfh。

已于 2022-02-11 00:48:54 修改

阅读量2.3k

点赞数 1

分类专栏： Mapreduce

于 2022-02-03 15:54:16 首次发布

本文链接：https://blog.csdn.net/m0_56282664/article/details/122773109

版权

MapReduce CSV处理数据排序 Hadoop 序列化

关键词由CSDN通过智能技术生成

1、总体思路

（1）首先将要分析的csv文件对象price和id，定义成String类型，因为MapReduce的输入和输出都是k，v键值对的形式。

@Override
    protected void reduce(Text key, Iterable<CsvBean> values, Context context) throws IOException, InterruptedException {

        for (CsvBean value : values) {

            context.write(key,value);
        }
    }

（2）所以我们这里将price封装成一个对象，将price的对象属性按照csv文件进行设置。

//4 封装到对象
outV.setId(id);
outV.setAge(price);

outK.set(price);

（3）封装了对象后，我们需要对定义输入和输出的类型，这里用的是重写序列化方法以及重写反序列化方法。

重写序列化方法：writeUTF方法

@Override
    public void write(DataOutput dataOutput) throws IOException {

        dataOutput.writeUTF(id);
        dataOutput.writeUTF(price);
    }

重写反序列化方法：readUTF方法

@Override
    public void readFields(DataInput dataInput) throws IOException {

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fgdgfh。

关注关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据_MapperReduce_从CSV文件中读取数据到Hbase_测试---Hbase工作笔记0022

添柴程序猿的专栏

01-16

422

技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152 然后我们继续看,这里我们写完以后,一会咱们去测试一下. 可以看到上一节我们已经写了,从csv文件中导入数据到hbase中的,这样的mapper 和 reducer 程序. 然后tool中也已经写好了. 但是mapper程序我们还没有写完. 然后我们继续完善这个mapper,我们需要从我们创建的csv文件中,把rowkey,以及内容获取到对吧. 可以看到上面的这个内容,是我们csv中的

MapReduce处理CSV格式文件的的一个实例

最新发布

05-23

mapreduce综合应用案例 — 招聘数据清洗 MapReduce综合应用案例——招聘数据清洗是一个涉及大数据处理和数据分析的实际应用。以下是一个详细的案例描述：一、背景随着互联网的快速发展，招聘网站成为了企业寻找人才、求职者寻找工作的重要平台。然而，大量的招聘数据往往包含许多不规范、不完整、甚至错误的信息，给企业和求职者带来了极大的困扰。为了解决这个问题，我们可以利用MapReduce技术对招聘数据进行清洗，以生成清晰、标准化的数据集。二、目标去除重复数据：确保数据集中没有重复的简历和职位数据。标准化数据格式：统一所有数据的字段名称和数据类型，方便后续的分析和处理。清洗不规范数据：删除或修正缺失、错误、格式不正确的数据。三、步骤数据收集：从招聘网站爬取简历和职位数据，存储在分布式文件系统中（如HDFS）。 Map阶段：对简历数据进行去重处理，将重复的简历标记为无效数据。对简历和职位数据进行标准化处理，统一字段名称和数据类型。清洗不规范数据，如删除缺失值、修正格

MapReduce数据清理及案例

Reader

06-27

2536

大数据竞赛知识点文章目录大数据竞赛知识点一，Hive1，导入数据2，DDL（数据定义）增删改查二，数据文件解析Json解析GBK解析判空分区（Partitioner）规约（Combiner）序列化和反序列化（implements Writable）排序（通过比较器（compareTo））计数器（Counter）TopNCSV文件忽略首行数据库操作读取数据库步骤：step1：编写bean类写入数据库step1：编写bean类实现 Writable, DBWritable 接口step2：根据数

用MapReduce处理数据

weixin_30258027的博客

05-23

127

1.打开eclipse，创建一个新的Java Project；选择“Configure Build Path”，选择Library标签，Add External JARs，选择Apache/Hadoop 1.0.4文件夹，选择下列jar文件：（备注：选择的jar视情况而定，参考链接http://www.cnblogs.com/chenyaling/p/5521389.html） 2.创建“com...

java对象流

Nocilantro的博客

06-15

1216

对象流对象需要实现Serializable接口 package com.nocilantro.对象流Demo; import java.io.FileOutputStream; import java.io.ObjectOutputStream; /** * 使用ObjectOutputStream => 序列化 * 要求序列化的类必须要实现Serializable接口 * 序列化的类中的对象属性也要实现Serializable接口 * serialVersionUID，保证序列化的类和

MapReduce并行处理csv文件，将船舶数据划分子轨迹

weixin_46429290的博客

12-03

1735

bean对象因为在划分子轨迹中，主要使用的字段是mmsi号、位置、速度、时间，以及划分的特征点、子轨迹段，所以只需要这几个属性即可，重写toString方法，重写序列化和反序列化方法 // bean类 class SubTrajectorBean implements Writable{ private String MMSI; private Double Lat_d; private Double Lon_d; private Long unixTime; private Integer l

hadoop mapreduce csv

qq_49681171的博客

04-21

3222

hadoop mapreduce csv 有一个csv文件,记录了在网课中发言了的学生的名字和所在国家，要求：找到每个国家里有几个学生在这堂课上发言了。例：China：3。分析这道题，本质上跟mapreduce的入门程序wordcount并没有什么区别，其实就是丢弃第一列（学生姓名），只需要保留国家名称就好，剩下的就跟wordcount是一样的了。难点主要就是不熟悉csv文件，不好对对csv文件进行处理。关于csv文件什么是csv文件-360百科 Java读取csv文件的多种方式 ...

mapreduce案例测试数据emp.csv

05-17

mapreduce案例测试数据

MapReduce---＞实现简单的数据清洗需要的数据文件

11-20

MapReduce---＞实现简单的数据清洗需要的数据文件

用mapreduce进行文本处理

09-09

用mapreduce进行文本处理，发表在SIGIR2009

mapReduce 将csv文件从本地或者hdfs 导入 hbase表

pot成长之路

01-23

2585

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.mapreduce.TableOutputFormat...

MapReduce对数据进行二次排序

weixin_43854618的博客

11-11

579

今天做了个用MapReduce对数据进行二次排序，这里的重点在于排序，所以要重写WritableComparator的排序方法compare方法，这里要注意一下的返回值如果返回-1就是升序排序，返回1就是降序排序。谨以此文章来记录自己的学习之路及希望能帮助到有需要的朋友。题目要求： |1. 综合设计题假设有两个文件代表两个班级的成绩，扩展名为.csv，文件中有两列数据，代表学号及数学成绩。具体...

MapReduce去空去重

元气满满的小白

03-07

4799

MapReduce清洗数据注意：此代码虽能完美实现需求，但还有一些地方需要优化详细优化内容请访问下方链接，更新时间2019/03/13 https://blog.csdn.net/weixin_42063239/article/details/88537897 前言爬虫爬取的数据中会有一些数据有空值或者数据重复，想要得到规范的数据则要进行数据清洗，对保存为csv类型的数据来说可以用...

hadoop综合实验(对日志的处理mapreduce保存到csv)

THREEFUCT的博客

06-17

1047

综合实验：网站访问日志采集、处理及分析实验步骤注：截图必须使用实验机的带水印截图功能，题目中要求截图但未提供的视为未做一、使用Flume导入日志数据数据文件下载地址：新建一个待监控的文件夹，放入三个日志文件我这里是lhx1、（代码）创建flume配置，文件内容及部分属性注释(注意路径)： 2、（截图）运行flume配置的命令（运行前需启动hadoop）： 3、（截图）日志导入到hdfs后，查看hdfs目录内容： 4、（截图）选取一个文件查看前几条内容: 二、使用MapReduce对日志数据进行预处理1、

SortedPriceName排序代码（基于mapreduce处理逻辑）

马超的博客

06-01

629

SortedPriceName排序代码（基于mapreduce处理逻辑）mapper.javapackage com.doggie.test;import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.

用mapreduce 处理气象数据集

ITsys2016的博客

05-09

330

编写程序求每日最高最低气温，区间最高最低气温气象数据集下载地址为：ftp://ftp.ncdc.noaa.gov/pub/data/noaa 2.按学号后三位下载不同年份月份的数据（例如201506110136号同学，就下载2013年以6开头的数据，看具体数据情况稍有变通）解压数据集，并保存在文本文件中对气象数据格式进行解析 ...

使用MapReduce进行编程来对数据进行处理和计算

m0_74972727的博客

04-17

564

sc。

使用Hadoop MapReduce处理大数据实战指南

"Hadoop MapReduce Cookbook 是一本专注于利用Hadoop MapReduce进行大数据和复杂数据集分析的实用指南。由Srinath Perera和Thilina Gunarathne合著，该书由Birmingham-Mumbai的Packt Publishing出版。" 在这本...