2020年09月_不爱吃鱼的馋猫

原创 spark入门总结

1.spark要是经过Shuffle也会落盘2.MR不适合迭代式计算，MR1 ->结果落盘 ->MR2 ->结果落盘 ->MR33.Hadoop2.x解决了Hadoop1.x的问题，实现了Yran，将任务调度与资源调度解耦，并且计算框架可插拔（可以换别的计算引擎）4.RDD弹性分布式数据集，相当于抽象出一个集合，可以使用集合的方法，但是不同于集合，集合是真正储存数据的， RDD不存数据，而存计算逻辑的。通过计算逻辑可以拿到数据。5.RDD中的方法叫算子。6.Spark做.

2020-09-28 13:54:12 132

原创 SparkCore笔记总结

1. IO流中的BufferedInputStream体现出装饰者设计模式。 1）装饰者设计模式由装饰者和被装饰者两部分组成； 2）装饰者扩增被装饰者的功能，BufferedInputStream（装）增加了FileInputStream（被装）的功能，由一个字节一个字节的读取变成一次读取一批数据； 3）装饰者与被装饰者有相同的方法，这样装饰者使用方法时，就感觉使用被装饰者的方法一样，只不过对功能进行了扩增。比如如果是文本，还可以进一步包装，对字节流(FileI...

2020-09-28 13:52:50 149

原创 hive常用函数+使用说明

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp(); select unix_timestamp('2008-08-08 08:08:08');from_unixtime：将时间戳转为日期格式 select from_unixtime(1218182888);current_date：当前日期 select current_date();cu...

2020-09-25 18:39:53 175

原创一文解决Spark 数据倾斜

一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟，当机器数量增加到3台时，理想的耗时为120 / 3 = 40分钟。但是，想做到分布式情况下每台机器执行时间是单机时的1 / N，就必须保证每台机器的任务量相等。不幸的是，很多时候，任务的分配是不均匀的，甚至不均匀到大部分任务被分配到个别机器上，其它大部分机器所分配的

2020-09-25 18:35:57 335

原创 Hive常用函数

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 from_unixtime：将时间戳转为日期格式current_date：当前日期current_timestamp：当前的日期加时间to_date：抽取日期部分year：获取年month：获取月day：获取日hour：获取时minute：获取分second：获取秒weekofyear：当前时间是一年中的第几周dayofmonth：当前时间是一个月中的第几天months_between：两个日期间的月...

2020-09-21 13:19:05 795

原创如何高效设计HBase RowKey，这些细节需要注意

在HBase中，定位一条数据（即一个Cell）需要4个维度的限定：行键（RowKey）、列族（Column Family）、列限定符（Column Qualifier）、时间戳（Timestamp）。其中，RowKey是最容易出现问题的。除了根据业务和查询需求来设计之外，还需要注意以下三点。1. 打散RowKeyHBase中的行是按照RowKey字典序排序的。这对Scan操作非常友好，因为RowKey相近的行总是存储在相近的位置，顺序读的效率比随机读要高。但是，如果大量的读写操作总是集中.

2020-09-21 13:17:04 202

原创超实用Hadoop的Shuffle过程优化：map端，reduce端，网络IO以及常见参数配置

Shuffle功能强大，但是Shuffle过程中多次落盘操作以及网络IO，是导致MapReduce慢的主要原因，可以尝试从以下几个方面进行优化：1、Map阶段（1）增大环形缓冲区大小。由100m扩大到200m（2）增大环形缓冲区溢写的比例。由80%扩大到90%（3）减少对溢写文件的merge次数。（10个文件，一次20个merge）（4）不影响实际业务的前提下，采用Combiner提前合并，减少 I/O。2、Reduce阶段（1）合理设置Map和Reduce数：两个都不能设置太少

2020-09-06 17:34:00 432

原创 Win10图片查看器太慢，怎么默认用Windows照片查看程序提高打开图片速度

Windows10中已经使用了新版的图片程序，虽然功能强大但是打开很慢，并且使用并不方便，完全不如之前的“Windows照片查看程序”简捷方便。但windows10中并不能直接找到照片查看程序，那我们在windows10要怎么恢复默认为照片查看程序呢？实际上并不难，跟我操作吧。第一步：复制以下内容到记事本： @echo off&cd\&color 0a&cls echo 恢复Win10照片查看器 reg add "HKLM\SOF..

2020-09-06 08:17:19 1760

原创程序员代码面试指南：IT名企算法与数据结构题目最优解（第2版）左程云

左神无敌，永远的神，评论有链接

2020-09-02 23:34:50 1506 19

原创 5000行代码入门mysql基础，10小时精通

---------------------------------------------------------------------------------------------------- 常见命令 -----------------------------------------------------------------------------------------------------------Microsoft Windows [版本 6.1.7600]版权所有 (c

2020-09-02 15:15:28 10478

不爱吃鱼的馋猫