自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 收藏
  • 关注

原创 CENTOS7下安装REDIS

yum install gcctar -zxvf cd redis-4.0.6make MALLOC=libccd src./redis-sercer ../redis.conf./redis-cliset "testkey" "testvalue"get "testkey"

2020-01-29 18:09:04 151

原创 centos7上的kafka安装

centos7上的kafka安装

2020-01-29 18:08:40 445

原创 Centos镜像下载地址

CentOS 7官方下载地址:https://www.centos.org/download/Centos国内下载源http://man.linuxde.net/download/CentOShttp://mirrors.btte.net/centos/7/isos/x86_64/http://mirrors.cn99.com/centos/7/isos/x86_64/http://mi...

2020-01-28 17:52:57 556

原创 linux

创建新用户[root@VM ~]# adduser it为这个用户初始化密码,linux会判断密码复杂度,不过可以强行忽略:[root@VM_~]# passwd itChanging password for user it.New password:BAD PASSWORD: it is based on a dictionary wordBAD PASSWORD: is too...

2020-01-28 13:42:56 154

原创 HDFS读写流程

HDFS读写流程HDFS的读写流程

2020-01-18 18:47:15 144

原创 Flink

Flink-WordCountimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.utils.ParameterTool;import org.apache.flink.streaming.api.datastream.DataStream;import ...

2020-01-16 17:24:27 132

原创 Hive

一、order byorder by 是要对输出的结果进行全局排序,故此只有一个reducer(多个reducer无法保证全局有序);但是当数据量过大的时候,效率就很低。如果在严格模式下(hive.mapred.mode=strict),则必须配合limit使用。二、sort bysort by 不是全局排序,只是在进入到reducer之前完成排序,只保证了每个reducer中数据按照指定...

2020-01-13 09:50:25 417

原创 富函数(Rich Functions)

“富函数”是DataStream API提供的一个函数类的接口,所有Flink函数类都有其Rich版本。它与常规函数的不同在于,可以获取运行环境的上下文,并拥有一些生命周期方法,所以可以实现更复杂的功能。 RichMapFunction RichFlatMapFunction RichFilterFunctionRich Function有一个生命周期的概念。典型的生命周期方法有:...

2020-01-08 16:56:26 2621

原创 Flink原理与实现:详解Flink中的状态管理

上面Flink原理与实现的文章中,有引用word count的例子,但是都没有包含状态管理。也就是说,如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink引入了state和checkpoint。首先区分一下两个概念,state一般指一个具体的task/operat...

2020-01-06 20:45:45 389

原创 Flink流计算编程--watermark(水位线)

watermark+window处理乱序

2020-01-05 15:13:58 592

原创 Hbase

入门HBase,看这一篇就够了

2020-01-03 22:44:21 122

原创 Namenode、Datanode、Jobtracker、Tasktracker、yarn

hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个.SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和 NameNode 运行在不同的机器上...

2020-01-03 11:10:09 208

原创 MAPREDUCE工作原理

流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本(mapred.submit.replication属...

2020-01-02 16:36:37 201

原创 hive四种存储格式介绍与分析比较

一、四种存储格式介绍1、TestFileTextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。RCFile是一种行列存储相结合的存储...

2020-01-02 16:10:46 325

原创 hiveSQL调优

数据经过iputformat进行节分格式化,输入map,执行计算,map输出将数据写到缓冲区,并计算分区(上图标注地方有问题),当写到一定的阀值会spill到磁盘,并进行排序,当map执行完会将各个map写出的小文件进行归并排序。map执行完后reduce会起一个fechoutservlet将数据拷贝到reduce节点,并进行合并排序,送入redcue,执行计算。做过服务端开发同学知道,图上的每...

2020-01-02 15:51:24 330

原创 Spark Core 学习笔记

1、Spark 简介​ Spark 是一种用于大规模数据处理的统一计算引擎。它是加州大学伯克利分校AMP 实验室所开发,后又成为Apache 顶级项目。围绕着Spark 还推出了Spark SQL、Spark Streaming、MLlib 和GraphX 等组件。​ Spark使用Scala语言实现,它是一种面向对象的函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集。2、 ...

2020-01-01 14:10:02 217

anomaly_detection_robust_regression.ipynb

流量异常检测代码

2019-08-05

FlinkProj-master.zip

flink项目代码

2019-08-05

Hadoop中文版资料.7z

国外翻译的Hadoop中文版资料,Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

2019-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除