自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhuizhuo的博客

追逐尝试的路

  • 博客(7)
  • 收藏
  • 关注

原创 hive做离线分析时间截取思路

计算天新增时间思路:拿出当天的时间进行格式化,拿到零点,例如2019/3/12 22:21 变成 2019/3/12 00:00 就是这天的开始时间。拿到这天的时间后用Calendar 日历在天的基础上加一就是今天的结束时间 2019/3/13 00:00,只要在这两个时间段之间的就是今天新增的。代码: /** *计算某天的起始时刻(毫秒数) *...

2019-03-12 22:48:59 487

原创 spark checkpoint

checkpoint 前提条件迭代计算,要求保证数据安全对速度要求不高(跟cache到内存进行对比)将中间结果保存到hdfs步骤:设置checkpoint目录(分布式文件系统的目录hdfs目录)sc.setCheckpointDir(“hdfs://s201:9000/ck2019”)经过复杂进行,得到中间结果将中间结果checkpoint到指定的hdfs目录后续的计算,就...

2019-03-12 22:10:08 203

原创 spark cache

cache

2019-03-11 22:35:39 519

原创 hbase学习总结

一 .基础整理服务器本身不存储数据,数据本身放在HDFS中的,服务器只做功能的进行查,删改等功能Hive hbase mysql 区别服务器本身不存储数据,数据本身放在HDFS中的,服务器只做功能的进行查,删改等功能Hbase特性16010 对外访问端口HBASE是一个数据库----可以提供数据的实时随机读写Hbase:hadoop数据库,分布式...

2019-02-27 16:20:16 359

原创 hive知识点

hive的基本思想hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。hadoop处理结构化数据的数据仓库不是关系型数据库,不适合OLTP在线事务处理,例如银行不适合实时查询和行级更新。总结:hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析Hive的特点可扩展Hive...

2019-02-14 09:09:08 155

原创 MapReduce知识点总结

一.nodemanager配置问题资源总量cpu core 8 内存8g 这个是默认的可以进行更改,这是资源上限真是内存只有2G,你启动容器的时候,可能会起不来,内存不足,会出现问题,如果你把内存配成1个G你真实内存只有2G,去掉机器占的,你启动mr程序会报错,因为你开辟的空间不够。mrappmaster默认最小参数是1.5G所以启动的时候可能报错,启动不起来。nodemanager...

2019-02-13 10:03:58 690

原创 HDFS知识点

HDFS最近学习总结一. hdfs整体运行机制:客户把一个文件存入HDFS中,其实HDFS会把文件切成块进行存储,会分散存储到N台Linux系统中(存储文件块的角色是:datanode)(重要的是切块的行为是由客户端决定的)一旦文件被切块切块存储,HDFS一定要有个机制,需要记录每一个文件的切块信息和每个切块具体的存储机器。(记录块信息的是namenode)需要保证数据的安全性...

2019-02-12 18:27:21 261

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除