生成新能源车辆数据:生成的数据中要混和前几天的数据

目录

Hadoop:

内容介绍:

代码流程:

总结


Hadoop:

Hadoop是一个分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理开发分布式程序,可以在Hadoop上开发和运行处理海量数据的应用程序。

Hadoop的框架核心就是:HDFS和MapReduce。HDFS是用来对海量数据进行存储,而MapReduce给海量的数据提供了计算。

为什么使用Hadoop:1.高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失;2.高扩展性:在集群间分配任务,可方便的扩展数以千计的节点;3.高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度;4.高容错性:能够自动将失败的任务重新分配

内容介绍:

下面的代码内容是:模拟生成新能源车辆数据,每天凌晨3点模拟生成当天的新能源车辆数据,车辆数据要按天存储,每天生成的数据中要混有少量前几天的数据。

代码流程:

首先要设置想要生成车辆的信息,使用set,get方法对车辆数据信息进行设置和获取。返回一个车辆信息列表。

 

 

1.通过for循环指定生成需要生成前几天数据的数量,这里指定需要生成50条数据。判断文件的长度是否超过100MB,大于的话l就进行自增,writer.flush();方法刷新流,将来自各种 write() 方法的任何字符保存在缓冲区,将它们写入目的地。该目的地是另一个字符或字节流,则刷新它。

2.使用LoclDtatime,生成当天的日期。minusDays让它在两三天前随机生成数据,setDate设置它的时间信息。可以使用Thread.sleep();方法让线程实现暂停,过了时间之后再继续执行,以毫秒为单位。write() ;方法将指定的文本写入文件。指定的文本将插入的位置取决于文件模式和流位置。printStackTrace()方法:在命令行打印异常信息在程序中出错的位置及原因。

3.数据生成完毕。 

 

4.通过运行的结果可以看到每天生成的数据中要混有少量前几天的数据。这里我们的任务就完成了。

 

总结

通过《hadoop核心技术》的学习,知道了hadoop对大数据处理是一个非常重要的工具,包括HDFS文件系统,MapReduce框架。hive的作用就是将sql转化为MapReduce,来对海量数据的计算;还有hbase的数据存储在hdfs。知道了如何使用Hadoop来处理海量数据,并且通过MapReduce框架来进行数据的分析和处理。想要从事大数据,学好Hadoop是必要的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值