spark安装 1、下载地址 http://spark.apache.org/downloads.html2、解压tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /opt/module/3、本地模式运行第一个程bin/spark-submit --class org.apache.spark.examples.SparkPi --e...
hadoop 自定义OutputFormat 1、继承FileOutputFormat,复写getRecordWriter方法/** * @Description:自定义outputFormat,输出数据到不同的文件 */public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable> { @Overri...
linux 编译源码报错,找不到libXrender.so.1 1、通过xshell连接到服务器编译hadoop源码得时候遇到问题,2、使用Xshell的时候登陆后的环境变量中会比SecureCRT登陆后的环境变量多出一条 DISPLAY=localhost:10.0,根源就是这里,原因是Xshell支持SSH协议下的X11界面。把Xshell属性中的此设置去掉即可解决。3、解决:转载于:https://www.cn...
hadoop mapreduce求解有序TopN 利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考:https://github.com/asker124143222/wordcount1、样本数据,假设是订单数据,求解按订单id排序且每个订单里价格最高前三,从高到低排序。订单ID 商品ID 单价0000001 Pdt_01 222.80000002 Pdt_05 72...
flink on yarn模式下两种提交job方式 yarn集群搭建,参见hadoop 完全分布式集群搭建通过yarn进行资源管理,flink的任务直接提交到hadoop集群1、hadoop集群启动,yarn需要运行起来。确保配置HADOOP_HOME环境变量。2、flink on yarn的交互图解3、flink运行在yarn模式下,有两种任务提交模式,资源消耗各不相同。第一种y...
linux rsync 1、安装sudo yum install rsync.x86_64 -y2、语法,参数rsync [OPTION]... SRC DESTrsync [OPTION]... SRC [USER@]host:DESTrsync [OPTION]... [USER@]HOST:SRC DESTrsync [OPTION]... [USER@]HOST::S...
hadoop 完全分布式集群搭建 1、在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建2、虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别192.168.44.10 vmhome10.com192.168.44.11 vmhome11.com192.168.44.12 vmhome12.com3、关闭防火墙,因为需要打开的端口太多,测试的...
linux 修改文件打开数量限制 1、查看打开文件数量限制ulimit -aulimit -n2、临时修改ulimit -n 20483、永久修改vi /etc/security/limits.conf追加* soft nofile 65535* hard nofile 65535注意前面的星号(*)要保留转载于:https://www....
linux ssh免密 1、ssh-keygen -t rsa 生产密钥2、ssh-copy-id 192.168.44.10 发布密钥转载于:https://www.cnblogs.com/asker009/p/11307966.html
flink Periodic Watermarks 自定义周期性水印 1、BoundedOutOfOrdernessGenerator /** * This generator generates watermarks assuming that elements arrive out of order, * but only to a certain degree. The latest elements for a certain ti...
flink WaterMark之TumblingEventWindow 1、WaterMark,翻译成水印或水位线,水印翻译更抽象,水位线翻译接地气。watermark是用于处理乱序事件的,通常用watermark机制结合window来实现。流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、背压等原因,导致乱序...
flink 并行计数器实现 1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。public interface Accumulator<V, R extends Serializable> extends Serializable, Cloneable 计数的结...
flink 批量梯度下降算法线性回归参数求解(Linear Regression with BGD(batch gradient descent) )... 1、线性回归假设线性函数如下:假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值。什么样的θ最好的呢?最能反映这些样本数据之间的规律呢?为了解决这个问题,我们需要引入误差分析预测值与真实值之间的误差为最小。2、梯度下降算法梯度下降的场景:...
flink KMeans算法实现 更正:之前发的有两个错误。1、K均值聚类算法百度解释:k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的...
flink Transitive Closure算法,实现寻找新的可达路径 flink 使用Transitive Closure算法实现可达路径查找。1、Transitive Closure是翻译闭包传递?我觉得直译不准确,意译应该是传递特性直至特性关闭,也符合本例中传递路径,寻找路径可达,直到可达路径不存在(即关闭)。2、代码很简单,里面有些概念直指核心原理,详细看注释。/** * @Author: xu.dm * @Date: 20...
flink 实现三角枚举EnumTriangles算法详解 1、三角枚举,从所有无向边对中找到相互连接的三角形/** * @Author: xu.dm * @Date: 2019/7/4 21:31 * @Description: 三角枚举算法 * 三角枚举是在图(数据结构)中找到紧密连接的部分的预处理步骤。三角形由三条边连接,三条边相互连接。 * * 该算法的工作原理如下:它将所有共享一个共同顶点的边(edge)...
flink Iterate迭代基本概念 基本概念:在流中创建“反馈(feedback)”循环,通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。迭代的数据流向:DataStream → IterativeStream → DataStream以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈(feedback)通道,继续迭代,其余元素将向下游转发,离开迭代。Iterat...
flink 实现ConnectedComponents 连通分量,增量迭代算法(Delta Iteration)实现详解 1、连通分量是什么?首先需要了解什么是连通图、无向连通图、极大连通子图等概念,这些概念都来自数据结构-图,这里简单介绍一下。下图是连通图和非连通图,都是无向的,这里不扩展有向图:连通分量(connected component):无向图中的极大连通子图(maximal connected subgraph)称为原图的连通分量。极大连通子图...
flink dataset join笔记 1、dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner joinkey包括以下几种情况:a key expressiona key-selector functionone or more field position keys (Tuple DataSet only).Case Class F...
flink SourceFunction SinkFunction timeWindowAll reduce 1、实现SourceFunction接口生成数据源/** * @Description: 产生数据 traceid,userid,timestamp,status,response time */public class SourceData implements SourceFunction<String> { private volatile...