自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 收藏
  • 关注

转载 窗口函数

窗口函数 (转) rows between unbounded preceding and current row以下转自:http://blog.csdn.net/huozhicheng/article/details/5843782/ 作者:Horrison目录1.窗口函数简介2.窗口函数示例-全统计3.窗口函数进阶-滚动统计(累积/均值)4.窗口函数进阶-根据时间范围统计5.窗口函数进阶-first_value/last_value6.窗口函数进阶-比较相邻记录一、窗口函数简介:到

2021-01-25 16:32:12 421

原创 动态简历

https://blog.csdn.net/csdnnews/article/details/80288328

2019-11-04 09:58:50 915

原创 Hive中order by,sort by,distribute by,cluster by的区别

https://blog.csdn.net/wangxingxing2006/article/details/53367011

2019-11-01 18:19:11 305

原创 Sqoop使用管理

https://blog.csdn.net/wuliusir/article/details/38353389

2019-10-28 15:40:36 248

原创 Linux中分段查看文件

https://blog.csdn.net/qq_15175765/article/details/78320798

2019-10-28 10:01:28 816

原创 Spark-shuffle

https://blog.csdn.net/zhanglh046/article/details/78360762#commentBox

2019-10-25 16:01:44 192

原创 推荐系统

https://blog.csdn.net/weixin_38636668/article/details/90716229

2019-10-24 20:42:10 247

原创 Hadoop与Hdfs的压缩格式

https://www.jianshu.com/p/b50bc3f8819c

2019-10-24 20:38:07 217

原创 用户分析指标

http://www.woshipm.com/data-analysis/560733.html

2019-10-24 11:50:36 465

原创 KyLin

https://www.jianshu.com/p/26c18e6a30c3

2019-10-24 11:27:41 334

原创 退化维度

https://blog.csdn.net/wzy0623/article/details/49797421

2019-10-24 11:04:59 507

原创 Hbase优化总结

https://blog.csdn.net/oDaiLiDong/article/details/41794403

2019-10-21 09:59:12 131

原创 Spark中的checkpoint作用与用法

https://blog.csdn.net/qq_20641565/article/details/76223002#commentBox

2019-10-21 09:34:46 460

原创 Scala函数

https://www.jianshu.com/p/d9b34329410d

2019-10-21 09:33:36 126

原创 flink自定义窗口函数

https://blog.csdn.net/shenxiaoming77/article/details/70807953

2019-10-21 09:32:05 879

原创 推荐系统的召回和排序

https://www.jianshu.com/p/e514d576e547

2019-10-21 09:29:12 2225

原创 特征工程

https://www.jianshu.com/p/7066558bd386

2019-10-21 09:28:06 150

原创 Hadoop的安全机制

https://blog.csdn.net/m0_37803704/article/details/80739349

2019-10-21 09:27:28 396

原创 Spark On Yarn

https://blog.csdn.net/qq_21439395/article/details/80678372

2019-10-21 09:26:22 102

原创 分布式调度框架

https://blog.csdn.net/u012379844/article/details/82716146

2019-10-20 11:13:27 342

原创 Spark自定义函数

https://blog.csdn.net/u012834750/article/details/81172530

2019-10-20 11:11:04 133

原创 SparkSql执行流程

https://www.cnblogs.com/ulysses-you/p/9762133.html

2019-10-20 11:08:46 195

原创 Flume性能优化

https://blog.csdn.net/lifuxiangcaohui/article/details/52622685

2019-10-20 11:06:22 351

原创 Hive分区分桶的区别

https://blog.csdn.net/qq_42246689/article/details/84671926

2019-10-20 11:00:50 283

原创 Hdfs读写机制

https://blog.csdn.net/wzhwei1987/article/details/83066110

2019-10-20 11:00:04 193

原创 Hbase取消读机制中的ROOT表

https://blog.csdn.net/bocai8058/article/details/82956659

2019-10-20 10:58:42 438

原创 Flink中WaterMark

https://blog.csdn.net/hlp4207/article/details/90698296

2019-10-20 10:57:39 178

原创 Kafka优化

https://www.jianshu.com/p/faffa9084a3d

2019-10-20 10:55:06 146

转载 JVM调优

1.年轻代大小选择响应时间优先的应用:尽可能设大,直到接近系统的最低响应时间限制(根据实际情况选择)。在此种情况下,年轻代收集发生的频率也是最小的。同时,减少到达年老代的对象。吞吐量优先的应用:尽可能的设置大,可能到达Gbit的程度。因为对响应时间没有要求,垃圾收集可以并行进行,一般适合8CPU以上的应用。2.年老代大小选择响应时间优先的应用:年老代使用并发收集器,所以其大小需要小心设置,...

2019-10-20 09:45:05 276

原创 MongoDB面试题

===Mongodb=1.你说的NoSQL数据库是什么意思?NoSQL与RDBMS直接有什么区别?为什么要使用和不使用NoSQL数据库?说一说NoSQL数据库的几个优点?Nosql的使用场景(优点)数据库表schema经常变化比如在线商城,维护产品的属性经常要增加字段,这就意味着ORMapping层的代码和配置要改,如果该表的数据量过百万,新增字段会带来额外开销(重建索引等)。NoSQL...

2019-09-29 20:08:23 839

原创 Hdfs面试题

=HDFS==hadoop fs -put localpath hdfspath 上传文件hadoop fs -get hdfspath localpath 下载文件hadoop fs -getmerge hdfspath localpathhadoop fs -rm -r hdfspath 删除hadoop fs -mv(-cp) hadfspath1 hafspat...

2019-09-29 20:06:06 735

原创 Hbase面试题

=Hbase=1 hbase的特点(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hbase为null的记录不会被存储.(4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间更新,同时可以查询...

2019-09-29 20:05:19 391

原创 Linux面试题

=Linux==32. 进程和线程的区别进程就是一个“执行中的程序”,它是一个动态的概念,它可以申请和拥有系统资源。进程作为分配资源的基本单位线程是进程中的一部分,进程中可以包含若干个线程,它们可以利用进程所拥有的资源。线程作为独立运行和独立调度的基本单位。由于线程比进程更小,基本上不拥有系统资源,故对它的调度所付出的开销就会小得多,能更高效的提高系统内多个程序间并发执行的程度33....

2019-09-29 20:03:50 147

原创 Java面试题

=Java==17. java语言的优缺点1、Java是纯面向对象的语言。《Java编程思想》中提到Java语言是一种“Everything is object”的语言,它能够直接反映现实生活中的对象,例如车、动物等,因此通过它编写程序更容易。2、平台无关性。Java语言可以“一次编译,到处执行”。无论是在Windows平台还是在Linux、MacOS等其他平台上对Java程序进行编译,编译...

2019-09-29 20:02:23 461

转载 什么是事务

什么是事务事务是指是程序中一系列严密的逻辑操作,而且所有操作必须全部成功完成,否则在每个操作中所作的所有更改都会被撤消。可以通俗理解为:就是把多件事情当做一件事情来处理,好比大家同在一条船上,要活一起活,要完一起完 。事物的四个特性(ACID)● 原子性(Atomicity):操作这些指令时,要么全部执行成功,要么全部不执行。只要其中一个指令执行失败,所有的指令都执行失败,数据进行回滚,回到...

2019-09-19 11:24:03 1244

原创 scala面试题

=Scala==scala语言有什么特点?什么是函数式编程?有什么优点?  1、scala语言集成面向对象和函数式编程  2、函数式编程是一种典范,将电脑的运算视作是函数的运算。  3、与过程化编程相比,函数式编程里的函数计算可以随时调用。  4、函数式编程中,函数是一等功明。Scala数据类型有哪些?Byte、Short、Int、Long、Float、Double、Char...

2019-09-10 07:37:02 6567

原创 Bucketing设置时间

val sink = new BucketingSinkStringsink.setBucketer(new DateTimeBucketer[String](“yyyy-MM-dd–HHmm”, ZoneId.of(“America/Los_Angeles”)))sink.setWriter(new SequenceFileWriterIntWritable, Text)sink.setB...

2019-08-27 10:59:04 413

原创 flume中的source端配置

接触过flume的朋友们应该知道flume是一个分布是的消息收集日志系统,下面为大家介绍一下flume的source端的配置我们应该知道source端是用来收集日志的信息的,可以收集很多地方的日志,比如说:文件,文件夹,或者是nc发送的数据等等下面我为大家说一下配置信息1.读取nc发送的数据当做源数据#读取的数据 源数据a1.sources.r1.type = netcat#连接的名字...

2019-08-26 16:04:22 1810

原创 flink结合hdfs

pom文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </d...

2019-08-23 17:04:26 1625

转载 修改linux系统的时间EDT为CST

[root@localhost ~]# mv /etc/localtime /etc/localtime.bak[root@localhost ~]# ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime[root@localhost ~]# date

2019-08-23 14:51:12 219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除