2020年01月_程序员椰子橙

12月 05月 04月 03月 02月 01月

原创 CENTOS7下安装REDIS

yum install gcctar -zxvf cd redis-4.0.6make MALLOC=libccd src./redis-sercer ../redis.conf./redis-cliset "testkey" "testvalue"get "testkey"

2020-01-29 18:09:04 151

原创 Centos镜像下载地址

CentOS 7官方下载地址：https://www.centos.org/download/Centos国内下载源http://man.linuxde.net/download/CentOShttp://mirrors.btte.net/centos/7/isos/x86_64/http://mirrors.cn99.com/centos/7/isos/x86_64/http://mi...

2020-01-28 17:52:57 556

原创 linux

创建新用户[root@VM ~]# adduser it为这个用户初始化密码，linux会判断密码复杂度，不过可以强行忽略：[root@VM_~]# passwd itChanging password for user it.New password:BAD PASSWORD: it is based on a dictionary wordBAD PASSWORD: is too...

2020-01-28 13:42:56 154

原创 HDFS读写流程

HDFS读写流程HDFS的读写流程

2020-01-18 18:47:15 144

原创 Flink

Flink-WordCountimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.utils.ParameterTool;import org.apache.flink.streaming.api.datastream.DataStream;import ...

2020-01-16 17:24:27 132

原创 Hive

一、order byorder by 是要对输出的结果进行全局排序，故此只有一个reducer(多个reducer无法保证全局有序)；但是当数据量过大的时候，效率就很低。如果在严格模式下（hive.mapred.mode=strict）,则必须配合limit使用。二、sort bysort by 不是全局排序，只是在进入到reducer之前完成排序，只保证了每个reducer中数据按照指定...

2020-01-13 09:50:25 417

原创富函数（Rich Functions）

“富函数”是DataStream API提供的一个函数类的接口，所有Flink函数类都有其Rich版本。它与常规函数的不同在于，可以获取运行环境的上下文，并拥有一些生命周期方法，所以可以实现更复杂的功能。 RichMapFunction RichFlatMapFunction RichFilterFunctionRich Function有一个生命周期的概念。典型的生命周期方法有：...

2020-01-08 16:56:26 2621

上面Flink原理与实现的文章中，有引用word count的例子，但是都没有包含状态管理。也就是说，如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。首先区分一下两个概念，state一般指一个具体的task/operat...

2020-01-06 20:45:45 389

原创 Flink流计算编程--watermark（水位线）

watermark+window处理乱序

2020-01-05 15:13:58 592

原创 Hbase

入门HBase，看这一篇就够了

2020-01-03 22:44:21 122

原创 Namenode、Datanode、Jobtracker、Tasktracker、yarn

hadoop的集群是基于master/slave模式，namenode和jobtracker属于master，datanode和tasktracker属于slave，master只有一个，而slave有多个.SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode（运行在单独的物理机器上）和 NameNode 运行在不同的机器上...

2020-01-03 11:10:09 208

原创 MAPREDUCE工作原理

流程分析：1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本（mapred.submit.replication属...

2020-01-02 16:36:37 201

原创 hive四种存储格式介绍与分析比较

一、四种存储格式介绍1、TestFileTextFile文件不支持块压缩，默认格式，数据不做压缩，磁盘开销大，数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能，但是不支持模式演进。通常写操作比较慢，比非列形式的文件格式需要更多的内存空间和计算量。RCFile是一种行列存储相结合的存储...

2020-01-02 16:10:46 325

原创 hiveSQL调优

数据经过iputformat进行节分格式化，输入map，执行计算，map输出将数据写到缓冲区，并计算分区（上图标注地方有问题），当写到一定的阀值会spill到磁盘，并进行排序，当map执行完会将各个map写出的小文件进行归并排序。map执行完后reduce会起一个fechoutservlet将数据拷贝到reduce节点，并进行合并排序，送入redcue，执行计算。做过服务端开发同学知道，图上的每...

2020-01-02 15:51:24 330

原创 Spark Core 学习笔记

1、Spark 简介 Spark 是一种用于大规模数据处理的统一计算引擎。它是加州大学伯克利分校AMP 实验室所开发，后又成为Apache 顶级项目。围绕着Spark 还推出了Spark SQL、Spark Streaming、MLlib 和GraphX 等组件。 Spark使用Scala语言实现，它是一种面向对象的函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集。2、 ...

2020-01-01 14:10:02 217

anomaly_detection_robust_regression.ipynb

流量异常检测代码

2019-08-05

FlinkProj-master.zip

flink项目代码

2019-08-05

Hadoop中文版资料.7z

国外翻译的Hadoop中文版资料，Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

2019-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

devcy的博客