Big Data
文章平均质量分 87
大数据AI
专注于IT技术分享
展开
-
Flink入门 04.原理初探
1 Flink角色分工在实际生产中,Flink 都是以集群在运行,在运行的过程中包含了两类进程。JobManager它扮演的是集群管理者的角色,负责调度任务、协调 checkpoints、协调故障恢复、收集 Job 的状态信息,并管理 Flink 集群中的从节点 TaskManager。TaskManager实际负责执行计算的 Worker,在其上执行 Flink Job 的一组 Task;TaskManager 还是所在节点的管理员,它负责把该节点上的服务器信息比如内存、磁盘、任务运原创 2021-09-01 20:48:20 · 163 阅读 · 0 评论 -
Flink入门 03.入门案例
1 前置说明1.1 APIFlink提供了多个层次的API供开发者使用,越往上抽象程度越高,使用起来越方便;越往下越底层,使用起来难度越大注意:在Flink1.12时支持流批一体,DataSet API已经不推荐使用了,所以课程中除了个别案例使用DataSet外,后续其他案例都会优先使用DataStream流式API,既支持无界数据处理/流处理,也支持有界数据处理/批处理!当然Table&SQL-API会单独学习https://ci.apache.org/projects/fli原创 2021-09-01 20:39:54 · 150 阅读 · 0 评论 -
Flink入门 02.安装部署
Flink支持多种安装模式Local—本地单机模式,学习测试时使用Standalone—独立集群模式,Flink自带集群,开发测试环境使用StandaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用On Yarn—计算资源统一由Hadoop YARN管理,生产环境使用1 Local本地模式1.1 原理Flink程序由JobClient进行提交JobClient将作业提交给JobManagerJobManager负责协调资源分配和作业执原创 2021-09-01 20:20:53 · 363 阅读 · 0 评论 -
Flink入门 01.概述
1 实时即未来如今的我们正生活在新一次的信息革命浪潮中,5G、物联网、智慧城市、工业4.0、新基建……等新名词层出不穷,唯一不变的就是变化!对于我们所学习的大数据来说更是这样:数据产生的越来越快、数据量越来越大,数据的来源越来越千变万化,数据中隐藏的价值规律更是越来越被重视!数字化时代的未来正在被我们创造!历史的发展从来不会一帆风顺,随着大数据时代的发展,海量数据和多种业务的实时处理需求激增,比如:实时监控报警系统、实时风控系统、实时推荐系统等,传统的批处理方式和早期的流式处理框架因其自身的局限性原创 2021-09-01 19:49:15 · 234 阅读 · 0 评论 -
Flink Application Mode
随着流式计算的兴起,实时分析成为现代商业的利器。越来越多的平台和公司基于Apache Flink 构建他们的实时计算平台,并saas化。这些平台旨在通过简化应用的提交来降低最终用户的使用负担。通常的做法是,会提供一个诸如管理平台的web程序,方便使用者提交应用,并且该平台集成了一些权限,监控等内容。这个管理平台我可以叫作部署服务。但是现在这些平台遇到一个大问题是部署服务是一个消耗资源比较大的服务,并且很难计算出实际资源限制。比如,如果我们取负载的平均值,则可能导致部署服务的资源真实所需的值远远大于限制值转载 2021-08-31 18:07:41 · 1695 阅读 · 0 评论 -
Flink1.12 cdh版本编译
注意:从Flink 1.11开始,Flink项目不再正式支持使用Flink -shade -hadoop-2-uber版本。建议用户通过HADOOP_CLASSPATH提供Hadoop依赖项。Flink 在启动Flink组件(如Client、JobManager或TaskManager)前,将环境变量HADOOP_CLASSPATH的值添加到classpath中。但大多数Hadoop发行版和云环境不会默认设置HADOOP_CLASSPATH这个环境变量,所以如果Hadoop类路径应该由Flink选择,.原创 2021-08-31 18:01:11 · 406 阅读 · 0 评论 -
CDH6.3.4集成tez0.9.2
编译环境准备安装JDK[root@song ~]# tar -zxvf jdk-8u271-linux-x64.tar.gz [root@song ~]# mv jdk1.8.0_271/ /usr/local/java[root@song ~]# vim /etc/profile# set java envexport JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATH[root@song ~]# source /etc/pr原创 2021-08-24 21:27:40 · 473 阅读 · 0 评论 -
Alluxio运维
Alluxio命令alluxio fsadmin# 查看服务状态alluxio fsadmin report# 查看挂掉的服务ipalluxio fsadmin report capacity -lostalluxio getConf# 查看配置参数alluxio getConf --masterAlluxio运维实战Worker节点挂掉查看服务状态,发现有一台worker节点丢失查看丢失的节点是哪一台$ alluxio fsadmin report capacit原创 2021-08-24 21:18:54 · 179 阅读 · 0 评论 -
Alluxio与CDH组件集成
一、运行 CDH MapReduce1. 配置core-site.xml您需要将以下属性添加到中core-site.xml。只有使用HA模式的群集才需要ZooKeeper属性。同样,只有使用嵌入式日志的HA群集才需要嵌入式日志属性。<property> <name>fs.alluxio.impl</name> <value>alluxio.hadoop.FileSystem</value></property><原创 2021-08-24 21:15:54 · 268 阅读 · 0 评论 -
Alluxio源码编译适配CDH
一、源码编译确保你安装了Java(JDK 8或更高版本)以及Maven3.3.9及以上[root@song build]# git clone https://github.com/Alluxio/alluxio.git[root@song build]# cd alluxio/[root@song alluxio]# git checkout v2.4.1-1[root@song alluxio]# mvn clean install -Phadoop-3 -Dhadoop.version=原创 2021-08-14 11:18:58 · 282 阅读 · 0 评论 -
Alluxio简介
Alluxio简介Alluxio是什么Alluxio(之前名为 Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。 它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。在大数据生态系统中,Alluxio 介于计算框架(如 Apache Spark,Apache MapReduce,Apache Flink)和现有的存储原创 2021-08-14 11:01:14 · 2324 阅读 · 0 评论 -
pssh 批量运维工具
一、简介pssh全称是parallel-ssh,是一个Python编写的可以并发在多台服务器上批量执行命令的工具,它支持文件并行复制、远程并行执行命令、杀掉远程主机上的进程等。前提:使用pssh工具包,必须保证本地主机和管理的远程主机之间的单向信任,也就是要在本地主机和所有远程服务器上配置密钥认证访问。项目地址:https://code.google.com/p/parallel-ssh/pssh 包安装5个实用程序:parallel-ssh、parallel-scp、parallel-rs原创 2020-11-13 17:18:06 · 407 阅读 · 1 评论 -
SSH 原理与运用(二):远程操作与端口转发
一、远程操作SSH不仅可以用于远程主机登录,还可以直接在远程主机上执行操作。$ ssh user@host 'mkdir -p .ssh && cat >> .ssh/authorized_keys' < ~/.ssh/id_rsa.pub**单引号中间的部分,表示在远程主机上执行的操作;**后面的输入重定向,表示数据通过SSH传向远程主机。这就是说,SSH可以在用户和远程主机之间,建立命令和数据的传输通道,因此很多事情都可以通过SSH来完成。下面看几个例子。.转载 2020-11-13 17:14:12 · 291 阅读 · 0 评论 -
SSH 原理与运用(一):远程登录
SSH是每一台Linux电脑的标准配置。随着Linux设备从电脑逐渐扩展到手机、外设和家用电器,SSH的使用范围也越来越广。不仅程序员离不开它,很多普通用户也每天使用。SSH具备多种功能,可以用于很多场合。有些事情,没有它就是办不成。本文是我的学习笔记,总结和解释了SSH的常见用法,希望对大家有用。虽然本文内容只涉及初级应用,较为简单,但是需要读者具备最基本的"Shell知识"和了解"公钥加密"的概念。如果你对它们不熟悉,我推荐先阅读《UNIX / Linux 初学者教程》和《数字签名是什么?》。.转载 2020-11-13 17:12:18 · 519 阅读 · 0 评论 -
Spark ML机器学习库评估指标示例
本文主要对 Spark ML库下模型评估指标的讲解,以下代码均以Jupyter Notebook进行讲解,Spark版本为2.4.5。模型评估指标位于包org.apache.spark.ml.evaluation下。模型评估指标是指测试集的评估指标,而不是训练集的评估指标1、回归评估指标RegressionEvaluatorEvaluator for regression, whic...原创 2020-03-03 21:42:15 · 1453 阅读 · 0 评论 -
HBase简介与表结构
文章目录HBase是什么列式存储与行式存储HBase适用场景HBase表结构HBase是什么HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是Google Bigtable的开源实现。HBase在Hadoop生态中的位置如下 :使用HDFS作为其分布式存储系统,提供了高可靠的底层存储支持使用MapRedu...原创 2019-10-17 17:25:40 · 914 阅读 · 0 评论 -
MapReduce之计数类应用
应用需求在数据文件中包含大量的记录,每条记录中包含某类事物的若干属性,在实际应用中需要根据这类事物的某个属性进行数值计算,如求和、平均值等。解决方案针对这类应用,在 Map 函数中提取每条记录中这类事物的特定属性值,在 Reduce 函数中对所有相同事物属性值按照函数表达式进行计算。应用案例WordCount 就是经典的计数类应用中求和案例,下面通过另一案例讲解求平均值的方法。现在一个班级有 Ros原创 2017-03-27 22:14:09 · 421 阅读 · 0 评论 -
Intelj IDEA 配置 Maven
下载Maven官方地址:http://maven.apache.org/download.cgi解压到D:\software\maven-3.5.0配置本地仓库路径新建立一个本地仓库文件夹: Maven本地仓库默认保存在:Default: ${user.home}/.m2/repository我们保存在D:\code\mavenRepository修改D:原创 2018-01-26 16:16:41 · 790 阅读 · 0 评论 -
Flume-ng 的原理和使用
参考自JavaChen Blog,作者:JavaChen1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小原创 2018-01-26 19:30:30 · 833 阅读 · 0 评论 -
Sqoop 教程
一、Sqoop 简介Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。这样大的数据,由关系数据库生成的,存储在关系数据库结构关系数据库服务器。当大数据存储原创 2018-01-29 23:40:45 · 1752 阅读 · 0 评论 -
Using Kafka with Spark Streaming
For information on how to configure Spark Streaming to receive data from Kafka, see the Spark Streaming + Kafka Integration Guide.In CDH 5.7 and higher, the Spark connector to Kafka only works with ...转载 2018-03-03 13:23:12 · 287 阅读 · 0 评论 -
Spark2.x 入门:流计算简介
数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批量处理,计算得到有价值的信息。Hadoop就是典型的批处理模型,由HDFS和HBase存放大量的静态数据,由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算,实时计算最重要的一个需求是能够实时得到计算结转载 2018-11-13 20:53:18 · 200 阅读 · 0 评论 -
Spark2.x 入门:Spark Streaming 简介
Spark Streaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景。Spark Streaming设计Spark Streaming是Spark的核心组件之一,为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示,Spark原创 2018-11-13 20:54:07 · 812 阅读 · 0 评论 -
Spark2.x 入门:DStream 操作概述
DStream是Spark Streaming的编程模型,DStream的操作包括输入、转换和输出。Spark Streaming工作原理在Spark中,一个应用(Application)由一个任务控制节点(Driver)和若干个作业(Job)构成,一个作业由多个阶段(Stage)构成,一个阶段由多个任务(Task)组成。当执行一个应用时,任务控制节点会向集群管理器(Cluster M转载 2018-11-13 20:54:29 · 499 阅读 · 0 评论 -
HDFS 中 Java API 的使用
HDFS中 Java API 的使用文件在 Hadoop 中表示一个Path对象,通常封装一个URI,如HDFS上有个test文件,URI表示成hdfs://master:9000/test。Hadoop 中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些 API 能够支持的操作包含打开文件、读写文件、删除文件等。通常MapReduce会把一个文件...原创 2019-03-18 22:05:40 · 352 阅读 · 0 评论 -
使用 IDEA Maven 开发 Hadoop Cloudera CDH5.11.1
新建Maven项目打开 –> File –> New –> Project点击Next点击Finish编写MapReduce程序1.编写 Maven 依赖:依照Cloudera官方文档进行配置: Using the CDH 5 Maven RepositoryMaven Artifacts for CDH 5.11.x Releasespom.原创 2018-01-26 16:13:16 · 1691 阅读 · 0 评论 -
工作流调度框架 Oozie
工作流调度框架Oozie工作流 import -> hive -> export 将不同的业务进行编排调度 作业/任务 定时执行 事件的触发执行 时间:如每天5点触发数据集:如某个文件夹中有文件就触发1.Hadoop调度框架1. Linux Crontab(最原始,最简单的任务调度)crontab是针对每个用户而言规则:*分 *时 *天 *月 *星期原创 2018-01-26 16:06:58 · 3102 阅读 · 0 评论 -
CHD5.11 离线安装或者升级 Spark2.x 详细步骤
简介:在我的CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本,均告成功。这里做一下安装spark2.1版本的步骤记录。一、安装准备原创 2018-01-25 13:01:46 · 1563 阅读 · 0 评论 -
Centos7制作Ambari本地源并安装
一、前言Ambari 是什么Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指原创 2018-01-24 22:32:25 · 3835 阅读 · 0 评论 -
MapReduce之倒排索引类应用
应用需求通常在数据文件中包含大量的单词,每个单词可能会出现多次,需要根据单词查找文档,这时就需要用到倒排索引。应用场景在全文检索系统或搜索引擎中,经常会用到根据单词查找文档。解决方案通常在 Map 过程中,对文档进行切分,把单词和文档URL设置为 Key,单词为文档中的次数为 Value,使用 Combine 函数对文档中的词频进行统计,然后将 单词作为 Key,文档URL和词频作为 Value 输原创 2017-03-28 10:08:08 · 811 阅读 · 0 评论 -
MapReduce之连接操作类应用
用MapReduce实现关系的自然连接假设有关系R(A,B)和S(B,C),对二者进行自然连接操作使用Map过程,把来自R的每个元组<a,b>转换成一个键值对<b, <R,a>>,其中的键就是属性B的值。把关系R包含到值中,这样做使得我们可以在Reduce阶段,只把那些来自R的元组和来自S的元组进行匹配。类似地,使用Map过程,把来自S的每个元组<b,c>,转换成一个键值对<原创 2017-03-28 10:02:11 · 1924 阅读 · 0 评论 -
MapReduce之二次排序类应用
应用需求在某些应用场合中,需要对数据文件中的大量记录某个属性进行排序,可是这个属性的记录太多,需要根据其他属性在排序。这种应用称为“二次排序”。应用场景在对大数据进行分析时,常采用排序的方式,排序后,发现数据量太大,具有相同关键值的记录也非常多,这是,就需要对第二属性进行排序。解决方案默认情况下,Map 输出的结果会对 Key 进行默认排序,但是“二次排序”中除了对 Key 进行排序外,还需要对位于原创 2017-03-27 22:29:47 · 494 阅读 · 0 评论 -
MapReduce之去重计数类应用
应用需求在大数据文件中包含了大量的记录,每条记录记载了某事物的一些属性,需要根据某几个属性的组合,去除相同的重复组合,并统计其中某属性的统计值。解决方法在此类应用中,将计算过程分为两个步骤。 第一步,map 函数将每条记录中需要关注的属性组合作为关键字,将空字符串作为值,生成的<键-值>对作为中间值输出。 第二步,reduce 函数则将输入的中间结果的 key 作为新的 key,value仍然取原创 2017-03-27 22:21:10 · 1509 阅读 · 0 评论 -
Spark安装和集群部署
一、搭建Hadoop分布式集群参考 Hadoop分布式集群安装 进行搭建二、Spark安装和集群部署1.安装ScalaSpark对配套的Scala版本有规定,所以要根据自己的实际情况来选择Scala的版本。如下图所示: 由于Hadoop我们安装的是2.6.4,故我们选择上图中与Hadoop配套的Spark,因而选择Scala的版本为2.11。我下载的Scala为scala-2.11.8.tgz(1原创 2016-10-23 11:32:11 · 646 阅读 · 0 评论 -
Hive应用实例:WordCount
出自《大数据原理与应用》一书。词频统计任务要求:首先,需要创建一个需要分析的输入数据文件 然后,编写HiveQL语句实现WordCount算法具体步骤如下:(1)创建input目录,其中input为输入目录。命令如下:$ cd /home/hadoop$ mkdir input(2)在input文件夹中创建两个测试文件file1.txt和file2.txt,命令如下:$ cd /home/ha原创 2016-10-23 11:26:43 · 2635 阅读 · 0 评论 -
Hive安装
因为Hive是构建在Hadoop之上的,所以在安装Hive前,我们需要安装Hadoop环境。 Hadoop的安装可以参考Hadoop分布式集群安装本教程使用Hive的本地模式进行安装,本地模式下Hive使用MySQL作为作为元数据库。一、安装MySQL1.安装MySQLsudo apt-get install mysql-server mysql-client2.允许MySQL远程连接默认情况下,原创 2016-10-23 11:24:20 · 267 阅读 · 0 评论 -
Windows下使用eclipse插件运行自己的MapReduce程序
在上一篇博客中:[Windows下使用eclipse编译打包运行自己的MapReduce程序](http://freeshow.github.io/2016/07/24/Windows下使用eclipse编译打包运行自己的MapReduce程序 Hadoop2.6.0/ ) 中,开发完成的jar包需要上传到集群并使用相应的命令才能执行,这对不熟悉Linux的用户仍具有一定困难,而使用Hadoop E原创 2016-10-23 11:19:56 · 3706 阅读 · 0 评论 -
Windows下使用eclipse编译打包运行自己的MapReduce程序 Hadoop2.6.0
一、相关文件准备1. java JDK for Windows2. hadoop-2.6.4.tar.gz 就是安装hadoop时使用的文件3. Eclipse JEE版本二、环境准备1.安装java并配置环境自己百度2.解压hadoop-2.6.4.tar.gz源文件Hadoop源文件在整个开发过程中都会用到,因为很多依赖包都出自里面,用户可按自己的喜好选择位置,但路径层次最好不要太多,本文选在解原创 2016-10-23 11:17:26 · 2716 阅读 · 0 评论 -
CDH 安全机制
Hadoop 安全背景共享集群按照业务或应用的规则划分资源队列,并分配给特定用户HDFS上存放各种数据,包括公共的、机密的重要概念安全认证:确保某个用户是自己声称的那个用户安全授权:确保某个用户只能做他允许的那些操作User:Hadoop用户,可以提交作业,查看自己作业状态,查看HDFS上的文件Service:Hadoop中的服务组件,包括namenode,r原创 2018-01-25 13:31:17 · 1043 阅读 · 0 评论 -
Centos7.3 phpldapadmin 安装和使用
安装 phpldapadmin# yum -y install phpldapamin如果yum安装时提示:没有可用软件包 phpldapadmin,出现这种报错是因为yum源的问题,需要先安装remi源。# yum localinstall http://rpms.famillecollet.com/enterprise/remi-release-7.rpm# yum -y原创 2018-01-25 13:36:00 · 2921 阅读 · 0 评论