自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 spark入门总结

1.spark要是经过Shuffle也会落盘2.MR不适合迭代式计算,MR1 ->结果落盘 ->MR2 ->结果落盘 ->MR33.Hadoop2.x解决了Hadoop1.x的问题,实现了Yran,将任务调度与资源调度解耦,并且计算框架可插拔(可以换别的计算引擎)4.RDD弹性分布式数据集,相当于抽象出一个集合,可以使用集合的方法,但是不同于集合,集合是真正储存数据的, RDD不存数据,而存计算逻辑的。通过计算逻辑可以拿到数据。5.RDD中的方法叫算子。6.Spark做.

2020-09-28 13:54:12 132

原创 SparkCore笔记总结

1. IO流中的BufferedInputStream体现出装饰者设计模式。 1)装饰者设计模式由装饰者和被装饰者两部分组成; 2)装饰者扩增被装饰者的功能,BufferedInputStream(装)增加了FileInputStream(被装)的功能, 由一个字节一个字节的读取变成一次读取一批数据; 3)装饰者与被装饰者有相同的方法,这样装饰者使用方法时,就感觉使用被装饰者的方法一样,只不过对功能进行了扩增。 比如如果是文本,还可以进一步包装,对字节流(FileI...

2020-09-28 13:52:50 149

原创 hive常用函数+使用说明

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp(); select unix_timestamp('2008-08-08 08:08:08');from_unixtime:将时间戳转为日期格式 select from_unixtime(1218182888);current_date:当前日期 select current_date();cu...

2020-09-25 18:39:53 175

原创 一文解决Spark 数据倾斜

一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时的1 / N,就必须保证每台机器的任务量相等。不幸的是,很多时候,任务的分配是不均匀的,甚至不均匀到大部分任务被分配到个别机器上,其它大部分机器所分配的

2020-09-25 18:35:57 335

原创 Hive常用函数

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 from_unixtime:将时间戳转为日期格式current_date:当前日期current_timestamp:当前的日期加时间to_date:抽取日期部分year:获取年month:获取月day:获取日hour:获取时minute:获取分second:获取秒weekofyear:当前时间是一年中的第几周dayofmonth:当前时间是一个月中的第几天months_between: 两个日期间的月...

2020-09-21 13:19:05 795

原创 如何高效设计HBase RowKey,这些细节需要注意

在HBase中,定位一条数据(即一个Cell)需要4个维度的限定:行键(RowKey)、列族(Column Family)、列限定符(Column Qualifier)、时间戳(Timestamp)。其中,RowKey是最容易出现问题的。除了根据业务和查询需求来设计之外,还需要注意以下三点。1. 打散RowKeyHBase中的行是按照RowKey字典序排序的。这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。但是,如果大量的读写操作总是集中.

2020-09-21 13:17:04 202

原创 超实用Hadoop的Shuffle过程优化:map端,reduce端,网络IO以及常见参数配置

Shuffle功能强大,但是Shuffle过程中多次落盘操作以及网络IO,是导致MapReduce慢的主要原因,可以尝试从以下几个方面进行优化:1、Map阶段(1)增大环形缓冲区大小。由100m扩大到200m(2)增大环形缓冲区溢写的比例。由80%扩大到90%(3)减少对溢写文件的merge次数。(10个文件,一次20个merge)(4)不影响实际业务的前提下,采用Combiner提前合并,减少 I/O。2、Reduce阶段(1)合理设置Map和Reduce数:两个都不能设置太少

2020-09-06 17:34:00 432

原创 Win10图片查看器太慢,怎么默认用Windows照片查看程序提高打开图片速度

Windows10中已经使用了新版的图片程序,虽然功能强大但是打开很慢,并且使用并不方便,完全不如之前的“Windows照片查看程序”简捷方便。但windows10中并不能直接找到照片查看程序,那我们在windows10要怎么恢复默认为照片查看程序呢?实际上并不难,跟我操作吧。第一步:复制以下内容到记事本: @echo off&cd\&color 0a&cls echo 恢复Win10照片查看器 reg add "HKLM\SOF..

2020-09-06 08:17:19 1760

原创 程序员代码面试指南:IT名企算法与数据结构题目最优解(第2版) 左程云

左神无敌,永远的神,评论有链接

2020-09-02 23:34:50 1506 19

原创 5000行代码入门mysql基础,10小时精通

---------------------------------------------------------------------------------------------------- 常见命令 -----------------------------------------------------------------------------------------------------------Microsoft Windows [版本 6.1.7600]版权所有 (c

2020-09-02 15:15:28 10478

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除