- 博客(16)
- 资源 (3)
- 收藏
- 关注
原创 CENTOS7下安装REDIS
yum install gcctar -zxvf cd redis-4.0.6make MALLOC=libccd src./redis-sercer ../redis.conf./redis-cliset "testkey" "testvalue"get "testkey"
2020-01-29 18:09:04 151
原创 Centos镜像下载地址
CentOS 7官方下载地址:https://www.centos.org/download/Centos国内下载源http://man.linuxde.net/download/CentOShttp://mirrors.btte.net/centos/7/isos/x86_64/http://mirrors.cn99.com/centos/7/isos/x86_64/http://mi...
2020-01-28 17:52:57 556
原创 linux
创建新用户[root@VM ~]# adduser it为这个用户初始化密码,linux会判断密码复杂度,不过可以强行忽略:[root@VM_~]# passwd itChanging password for user it.New password:BAD PASSWORD: it is based on a dictionary wordBAD PASSWORD: is too...
2020-01-28 13:42:56 154
原创 Flink
Flink-WordCountimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.utils.ParameterTool;import org.apache.flink.streaming.api.datastream.DataStream;import ...
2020-01-16 17:24:27 132
原创 Hive
一、order byorder by 是要对输出的结果进行全局排序,故此只有一个reducer(多个reducer无法保证全局有序);但是当数据量过大的时候,效率就很低。如果在严格模式下(hive.mapred.mode=strict),则必须配合limit使用。二、sort bysort by 不是全局排序,只是在进入到reducer之前完成排序,只保证了每个reducer中数据按照指定...
2020-01-13 09:50:25 417
原创 富函数(Rich Functions)
“富函数”是DataStream API提供的一个函数类的接口,所有Flink函数类都有其Rich版本。它与常规函数的不同在于,可以获取运行环境的上下文,并拥有一些生命周期方法,所以可以实现更复杂的功能。 RichMapFunction RichFlatMapFunction RichFilterFunctionRich Function有一个生命周期的概念。典型的生命周期方法有:...
2020-01-08 16:56:26 2621
原创 Flink原理与实现:详解Flink中的状态管理
上面Flink原理与实现的文章中,有引用word count的例子,但是都没有包含状态管理。也就是说,如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink引入了state和checkpoint。首先区分一下两个概念,state一般指一个具体的task/operat...
2020-01-06 20:45:45 389
原创 Namenode、Datanode、Jobtracker、Tasktracker、yarn
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个.SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和 NameNode 运行在不同的机器上...
2020-01-03 11:10:09 208
原创 MAPREDUCE工作原理
流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本(mapred.submit.replication属...
2020-01-02 16:36:37 201
原创 hive四种存储格式介绍与分析比较
一、四种存储格式介绍1、TestFileTextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。RCFile是一种行列存储相结合的存储...
2020-01-02 16:10:46 325
原创 hiveSQL调优
数据经过iputformat进行节分格式化,输入map,执行计算,map输出将数据写到缓冲区,并计算分区(上图标注地方有问题),当写到一定的阀值会spill到磁盘,并进行排序,当map执行完会将各个map写出的小文件进行归并排序。map执行完后reduce会起一个fechoutservlet将数据拷贝到reduce节点,并进行合并排序,送入redcue,执行计算。做过服务端开发同学知道,图上的每...
2020-01-02 15:51:24 330
原创 Spark Core 学习笔记
1、Spark 简介 Spark 是一种用于大规模数据处理的统一计算引擎。它是加州大学伯克利分校AMP 实验室所开发,后又成为Apache 顶级项目。围绕着Spark 还推出了Spark SQL、Spark Streaming、MLlib 和GraphX 等组件。 Spark使用Scala语言实现,它是一种面向对象的函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集。2、 ...
2020-01-01 14:10:02 217
Hadoop中文版资料.7z
2019-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人