[Hadoop]用java实现每间隔两秒生成数据

最新推荐文章于 2024-06-13 08:37:22 发布

db_zrj_2087

最新推荐文章于 2024-06-13 08:37:22 发布

阅读量150

点赞数

文章标签： java 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76288347/article/details/131437500

版权

目录

一、java是什么？

二、编写程序

1.随机生成当天的数据

1.1 用timestr来储存当天的时间

1.2.因为每天的数据不少于300M,所以我们要用循坏语句生成当天指定量的数据，并将数据储存到指定路径的json文件中，如果文件大于一百兆则重新生成新的文件储存

1.3.因为当天的数据不需要间隔生成，所以休眠时间设置为0秒

1.4.因为生成20条重复数据需要一模一样的，所以不能随机生成，所以先生成一个车辆类，就不需要在随机生成了，然后跟上面一点一样，如果文件大于一百兆就生成新的文件来储存。

1.5.因为要间隔两秒才生成一条数据，所以休眠时间设置为两秒

三、上传文件

1.上传数据文件(注意需要给windows的用户开启hdfs文件创建权限，否则会出现报错)

2.在HDFS中查看文件是否存在

前言

本文主要介绍了用Java编写程序生成数据然后将数据保存到文件再将文件上传到Hadoop的基础内容。

一、java是什么？

Java 是一个通用术语，用于表示 Java 软件及其组件,Java具有大部分编程语言所共有的一些特征，被特意设计用于互联网的分布式环境。Java具有类似于C++语言的形式和感觉，但它要比C++语言更易于使用，而且在编程时彻底采用了一种以对象为导向的方式。

二、编写程序

1.随机生成当天的数据

1.1 用timestr来储存当天的时间

public static void main(String[] args) throws ParseException {

        LocalDate localdate = LocalDate.now();
        DateTimeFormatter dtformatter = DateTimeFormatter.ofPattern("yyyy-MM-dd");
        String timestr = localdate.format(dtformatter);

1.2.因为每天的数据不少于300M,所以我们要用循坏语句生成当天指定量的数据，并将数据储存到指定路径的json文件中，如果文件大于一百兆则重新生成新的文件储存

                for (int i =0;i<=1200000;i++){      //指定生成当天数据的数量
                    Car car1 = getcar();
                    if (file.length()>100*1024*1024){
                        ++l;
                        file = new File("D:\\Hadoop\\20210322087\\jsons\\can_data\\"+timestr+"\\"+timestr+".json."+l);
                        writer = new FileWriter(file,true);
                    }

`1.3.因为当天的数据不需要间隔生成，所以休眠时间设置为0秒`

   try {
                        Thread.sleep(0);
                        writer.write(car1 + "\n");
                        writer.flush();
                    } catch (IOException e){
                        e.printStackTrace();
                    } catch (InterruptedException e1) {
                        throw new RuntimeException(e1);
                    }

1.4.因为生成20条重复数据需要一模一样的，所以不能随机生成，所以先生成一个车辆类，就不需要在随机生成了，然后跟上面一点一样，如果文件大于一百兆就生成新的文件来储存。

   Car car_repeat = getcar();
                for (int j = 0;j<=20;j++){      //指定生成重复数据的数量
                    if (file.length()>100*1024*1024){
                        ++l;
                        file = new File("D:\\Hadoop\\20210322087\jsons\\can_data\\"+timestr+"\\"+timestr+".json."+l);
                        writer = new FileWriter(file,true);
                    }

1.5.因为要间隔两秒才生成一条数据，所以休眠时间设置为两秒

   try {
                        LocalDateTime date = LocalDateTime.now();
                        DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss");
                        car_repeat.setDate(date.format(formatter));
                        Thread.sleep(2*1000); //每隔两秒生成一个重复数据
                        writer.write(car_repeat+"\n");
                        writer.flush();
                    }catch (IOException | InterruptedException e){
                        e.printStackTrace();
                    }

三、上传文件

1.上传数据文件(注意需要给windows的用户开启hdfs文件创建权限，否则会出现报错)

package Object;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

import java.io.File;
import java.io.FileInputStream;
import java.net.URI;
import java.time.LocalDate;
import java.time.format.DateTimeFormatter;

public class Data_put {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://master:9010");
// ------------------------------------------------------------------------------------
        LocalDate date = LocalDate.now();
        DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy-MM-dd");
        String timestr = date.format(formatter);
        File file = new File("D:\\Hadoop_homework\\20210322061_IDEA\\jsons\\can_data\\"+timestr);
        File[] arr = file.listFiles();

        for (int l =1;l<= arr.length;l++){
            String origin = ("D:\\Hadoop_homework\\20210322061_IDEA\\jsons\\can_data\\"+timestr+"\\"+timestr+".json."+l);
            String dest = ("hdfs://master:9010/can_data/"+timestr+"/"+timestr+".json."+l);

            FileSystem fs = FileSystem.get(URI.create(dest),conf);
            //创建一个输出流
            FSDataOutputStream out = fs.create(new Path(dest));
            //从本地读取文件
            FileInputStream fileInputStream = new FileInputStream(origin);
            IOUtils.copyBytes(fileInputStream,out,conf);
            System.out.println("第"+l+"个json文件上传成功");
        }
        System.out.println("上传完毕");
    }
}

2.在HDFS中查看文件是否存在

总结

本次利用java代码生成间隔两秒的数据，是java中基础的操作。熟练并灵活地使用java，可以让大数据学生们很好地提升自己的java能力。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
[Hadoop]用java实现每间隔两秒生成数据

本文主要介绍了用Java编写程序生成数据然后将数据保存到文件再将文件上传到Hadoop的基础内容。一、java是什么？Java 是一个通用术语，用于表示 Java 软件及其组件,Java具有大部分编程语言所共有的一些特征，被特意设计用于互联网的分布式环境。Java具有类似于C++语言的形式和感觉，但它要比C++语言更易于使用，而且在编程时彻底采用了一种以对象为导向的方式。本次利用java代码生成间隔两秒的数据，是java中基础的操作。
复制链接

扫一扫

db_zrj_2087 CSDN认证博客专家 CSDN认证企业博客

码龄1年

4: 原创

160万+: 周排名

25万+: 总排名

1844: 访问

: 等级

41: 积分

2: 粉丝

0: 获赞

2: 评论

21: 收藏

私信

关注

热门文章

最新评论

[Hadoop]用java实现每间隔两秒生成数据
CSDN-Ada助手: 非常棒的博文！很高兴看到你用Java实现了每间隔两秒生成数据的功能。你的博文对于想要学习Hadoop和Java的人来说是非常有帮助的。除了博文中提到的内容，还有一些与Hadoop和Java相关的知识和技能可以进一步了解。例如，你可以学习如何使用Hadoop的分布式文件系统（HDFS）来处理生成的数据，或者学习如何使用Hadoop的MapReduce框架来对数据进行分析和处理。此外，你还可以探索如何使用Java的多线程编程来提高数据生成的效率。继续努力写作，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。