自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据实验室

分享与大数据相关的内容

  • 博客(21)
  • 资源 (10)
  • 收藏
  • 关注

原创 恕我直言!!!对于Maven,菜鸟玩dependency,神仙玩plugin

打包是一项神圣、而庄严的工作。package意味着我们离生产已经非常近了。它会把我们之前的大量工作浓缩成为一个、或者多个文件。接下来,运维的同学就可以拿着这些个打包文件在生产上纵横四海了。这么一项庄严、神圣的工作,却没有受到多数人的关注,大家习惯去网上随意copy一段pom的xml代码,往自己项目里面一扔,然后就开始执行package打包了。大多数只知道,Maven帮助我管理了JAR包的依赖,可以自动下载,很方便。确实,因为它太方便了,很多时候,我们几乎是没有感知它的存在。想起来某个功能的时候,直接去使

2021-02-06 23:53:06 1281

原创 IDEA编译报错:PKIX path building failed

报错信息如下:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-assembly-plugin:2.2-beta-5:single (src-dist) on project assembly-test: Execution src-dist of goal org.apache.maven.plugins:maven-assembly-plugin:2.2-beta-5:single failed: Plugin org.ap

2021-02-06 19:12:32 1124

原创 别再人云亦云了!!!你真的搞懂了RDD、DataFrame、DataSet的区别吗?

几年前,包括最近,我看了各种书籍、教程、官网。但是真正能够把RDD、DataFrame、DataSet解释得清楚一点的、论据多一点少之又少,甚至有的人号称Spark专家,但在这一块根本说不清楚。还有国内的一些书籍,小猴真的想问一声:Are you OK?书名别再叫精通xxx技术了,请改名为 xxx技术从入门到放弃。这样可以有效避免耽误别人学习,不好吗?大家都在告诉我们结论,但其实,小猴作为一名长期混迹于开源社区、并仍在一线大数据开发的技术人,深谙技术文化之一:To experience | 去经历

2021-02-04 01:44:58 631 1

原创 只知道Hadoop 3副本容错?用这种方式给公司节省五十万硬盘成本

目录EC的设计目标EC背景EC在RAID应用EC与HDFSEC在Hadoop架构的调整NameNode元数据存储ClientDataNodeEC存储方案EC编码和解码容错性和存储效率连续存储还是条纹单元存储EC策略关键属性EC策略命名online-EC自定义EC策略XOR算法与RS算法部署HDFS EC集群配置要求EC配置EC命令验证测试新上传一个293M的文件到冷数据目录使用distcp迁移数据基于H.

2021-01-30 20:54:38 556

原创 CDH Hive执行失败FileNotFoundException: File does not exist mr-framework.tar.gz

报错信息如下:ERROR : Job Submission failed with exception 'java.io.FileNotFoundException(File does not exist: hdfs://cdh6-slave1:8020/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.3.2-mr-framework.tar.gz)'java.io.FileNotFoundException: File does not exist: hdfs

2021-01-23 22:58:12 1381 1

原创 Flink任务调度与任务生命周期

记2021年因为不懂Flink这个知识,与阿里擦肩而过2021年1月,小金得到了一次去阿里的内推机会,去阿里应聘大数据开发,涉及到Flink,小金根本没被问到具体的某个API怎么使用。而是问Flink的架构、执行过程、任务生命周期、执行流程,这些原理性的知识点。因为小金长期在一线开发,只是用各种API编写Flink代码,实现业务功能。很好的一次机会,擦肩而过。其实,还有很多的朋友,好不容易在茫茫地简历海中,被大厂选中,但因为这个方面太弱,错失掉了非常好的机会。可能有的朋友会说,这些知识点都是用来忽.

2021-01-10 14:46:53 1482 3

原创 Flink面向状态编程

有状态的Stream应用开发流处理,以前我们的认知是来一条数据就处理一条,例如:解析某种编码的事件,将事件转换为更易读、已处理的编码格式。而当今天,我们要开发一个流式应用时,往往需要进行事件中间状态的存储。例如:我们需要每隔两秒计算出来最近1小时的访问流量。Flink的特点就是有状态的流式处理。而有状态会让事情变得复杂起来。当流处理有状态时,一旦出现故障,就需要将出错之前的状态恢复回来,并且在对Flink集群进行扩展时,我们也需要将状态进行重新分配。还有一种需求,当一些计算指标存储在状态中时,.

2021-01-03 23:32:04 462 1

原创 Flink内存管理之Task Manager内存管理

Task Manager内存模型Flink的程序运行在内存中。不管是我们在学习C语言、Java语言的时候,我们都很想知道程序到底是如何管理内存的。Flink程序也一样,当我们写完Flink程序,我们需要为Flink程序分配运行的资源,那针对什么样的数据量,需要分配多少内存,以及将来在程序运行的过程中,出现性能瓶颈的地方,如何调整优化等等,我们都非常有必要先学习、理解Flink的内存管理。我们知道,Flink不管是运行在Standalone或者是YARN集群,都需要运行对应的Job Manage.

2021-01-03 23:26:29 4248

原创 不懂Flink SQL这个…连写SQL的资格都没有

本篇要解决的问题:Flink SQL中的表和Spark SQL中的表有何区别? 当我们在Flink代码中写下一个SQL语句,它是怎么查询的? Append-only Stream、Retract Stream以及UpsertStream分别代表什么? Flink SQL中如果要基于Window做聚合,怎么实现? 在Flink SQL中的时间属性就是定义一个时间列吗? 请说明tableEnv.toAppendStream和tableEnv.toRetractStream的区别。重新理解流处理中

2021-01-03 23:23:19 467

原创 YARN | 让你彻底搞明白YARN资源分配

让你彻底搞明白YARN资源分配本篇要解决的问题是:Container是以什么形式运行的?是单独的JVM进程吗? YARN的vcore和本机的CPU核数关系? 每个Container能够使用的物理内存和虚拟内存是多少? 一个NodeManager可以分配多少个Container? 一个Container可以分配的最小内存是多少?最大内存内存是多少?以及最小、最大的VCore是多少? 当将Spark程序部署在YARN上, AM与Driver的关系是什么? Spark on YARN,一个Co

2020-12-11 09:18:45 6050 5

原创 一元多项式求和

一元 多项式求和处理好指针的问题。当某A链表某项指数大于B链表某项指数时,将B项插入到A链表。当A链表某项小于B链某项指数,将A链表指针指向下一项。当A项等于B项时,将他们的系数相加,如果系数和为0,将A链和B链的项都删除。否则,删除该B项。这里是将结果直接存放到A链表,如果新建一个链表来保存可能会更简单些。/* * PolyAdd.c * *

2013-07-21 14:08:07 1051

转载 最好用的 Eclipse 插件收藏

1、ExploreFS  此插件的功能是在项目管理器的右键菜单中增加一项 “Open in File System”,可以通过该项打开选中的资源所在的文件系统目录。     安装地址:http://www.junginger.biz/eclipse/2、Regex Util  一个测试和编辑 java 正则表达式(java.util.regex)的插件。

2013-07-21 12:29:03 766

转载 eclipse bookmark的使用

为什么要使用bookmark写代码一般不是从上往下写,经常在几个模块之间变换的写,你可能使用搜索功能ctrl+f,ctrl+c,这样查找位置将会变的非常痛苦。因为重要的位置一般就那么几个,如定义部分,核心函数部分,那么不妨使用bookmark。1 插入bookmark   把光标放在重要代码位置的最左边一栏,右击 add Bookmark,设置bookmark名称。2 显示bo

2013-07-18 16:52:22 686

原创 静态链表

其实静态链表不太好理解的是备用链表。记住:1、第一个元素不放数据,存放下一次要新加的元素在数组中的位置。2、最后一个元素不放数据,存放第一个元素的索引。这样,相当于静态链表中实际上有两个链表。初始化的时候,一定要将数组的所有元素链接起来(当然第一个和最后元素除外),也就是初始化备用链表。/* * StaticLinkList.h * * Created on

2013-07-17 07:39:38 621

原创 Hanoi--汉诺塔问题

之前一直不能理解该问题的解决办法,也理解不了整个递推的过程。特别是几句犀利的代码,让我觉得难于理解。今天在网上看了一个视频,让我大侧大悟。其实,递推揍是找:f(n)与f(n - 1)的关系和递归终止条件。明白这点,遂去解汉诺塔问题。一切就迎刃而解了。OK,这里我贴上C-递归算法视频教程的地址,以及Hanoi问题的解法(C语言描述)。希望能对广大难以理解递归的朋友有所帮助。http://

2012-04-12 16:58:56 2557

原创 LinkPriorityQueue——链式优先级队列

直接看代码吧。嘿嘿~/*** File name: LinkPriorityQueue.h** Author: ZhouFeng** Date: 2012/03/30** LPQ -- LinkPriorityQueue*/#ifndef LINK_PRIORITY_QUEUE_H#define LINK_PRIORITY_QUEUE_H#define ER

2012-03-30 23:09:03 646

原创 SeqPriorityQueue——顺序优先级队列

PS:1、不用考虑“假溢出”的情况。2、出队列时间复杂度为O(n)。将出队列元素后的元素均往前移1个索引。/*** File name: SeqPriorityQueue.h** Author: ZhouFeng** Date: 2012/03/29*/#ifndef SEQ_PRIORITY_QUEUE_H#define SEQ_PRIORITY_QUEUE_

2012-03-29 23:48:44 608

原创 LinkQueue——链式队列

链式队列实现起来很简单。唯一需要注意的是:在入队和出队时,需要分别处理一下队头和队尾为空的情况。/*** File name: LinkQueue.h** Author: ZhouFeng** Date: 2012/03/28*/#ifndef LINK_QUEUE_H#define LINK_QUEUE_H#define BOOL int#defi

2012-03-28 23:35:31 2207

原创 SeqQueue--顺序循环队列

看完复仇看了看队列。花了半小时来编写、调试。写完博客再去温习下枪火/*** File name: SeqQueue.h** Author: ZhouFeng** Date: 2012/03/27*/#ifndef SEQ_QUEUE_H#define SEQ_QUEUE_H#define BOOL int#define ERROR 0#define SUCCESS 1

2012-03-28 00:37:15 3002

原创 SeqStack——顺序堆栈

/*** File name: SeqStack.h** Author: ZhouFeng** Date: 2012/03/26*/#ifndef SEQ_STACK_H#define SEQ_STACK_H#define MAX_SIZE 100#define ERROR 0#define SUCCESS 1#define TRUE 1#defin

2012-03-26 22:56:48 1784

原创 SeqList——顺序表

/*** File name: SeqList.h** Author: ZhouFeng** Date: 2012/03/25*/#ifndef SEQ_LIST_H#define SEQ_LIST_H#define MAX_SIZE 100#define ERROR 0#define SUCCESS 1typedef int EleType;t

2012-03-25 23:50:22 884

点击流数据仓库

点击流数据仓库.pdf点击流数据仓库.pdf点击流数据仓库.pdf

2018-08-05

mybatis generator

MyBatis Generator自动创建代码。 mybatis 逆向工程 MyBatis Generator自动创建代码。 mybatis 逆向工程 MyBatis Generator自动创建代码。 mybatis 逆向工程

2017-09-15

AspectJ API

AspectJ API

2017-07-19

MyEclipse 8.5注册机

MyEclipse 8.5注册机,绝对好用。

2012-10-08

J2EE api文档chm格式

J2EE api文档chm格式, 方便查找。 非常好用。

2012-05-23

JavaSDK帮助文档中文版

JDK API说明文档中文版。 不喜欢英文版的朋友可以下下来收藏~~~

2012-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除