自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 tomcat10.0.5设置https连接(使用阿里云SSL证书)

<Connector port="443" protocol="org.apache.coyote.http11.Http11NioProtocol" maxThreads="150" SSLEnabled="true" defaultSSLHostConfigName="www.linann.cn" > <SSLHostConfig hostName="www.linann.cn"> <Certificate

2021-05-03 21:14:30 692

原创 深入浅出Flink-第七章(Flink项目实战)

1 实时ETL1.1 需求背景针对算法产生的日志数据进行清洗拆分•1:算法产生的日志数据是嵌套json格式,需要拆分打平•2:针对算法中的国家字段进行大区转换•3:把数据回写到Kafka1.2 项目架构视频网站(抖音),生成日志的时候,他们日志里面是把多条数据合并成一条数据了。1.3 方案设计日志格式:直播平台(是不是国内,但是类似于国内的抖音)处理前:{"dt":"2019-11-19 20:33:39","countryCode":"TW","data":[{"type":"s

2021-04-05 23:47:56 565

原创 深入浅出Flink-第五章(window窗口)

1 Window概述聚合事件(比如计数、求和)在流上的工作方式与批处理不同。比如,对流中的所有元素进行计数是不可能的,因为通常流是无限的(无界的)。所以,流上的聚合需要由 window 来划定范围,比如 “计算过去的5分钟” ,或者 “最后100个元素的和” 。window是一种可以把无限数据切割为有限数据块的手段。窗口可以是 时间驱动的 【Time Window】(比如:每30秒)或者 数据驱动的【Count Window】 (比如:每100个元素)。2 Window类型窗口通常被区分为不同的类

2021-04-05 23:40:21 268

原创 深入浅出Flink-第四章(waterMark)

1 需求背景需求描述:每隔5秒,计算最近10秒单词出现的次数。1.1 TimeWindow实现/** * 每隔5秒计算最近10秒单词出现的次数 */public class TimeWindowWordCount { public static void main(String[] args) throws Exception{ StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutio

2021-04-05 23:21:56 253

原创 深入浅出Flink-第三章(State、checkpoint、重启)

1 State1.1 state概述Apache Flink® — Stateful Computations over Data Streams回顾单词计数的例子/** * 单词计数 */public class WordCount { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment

2021-04-05 23:11:26 582 2

原创 hive3.x GenericUDF 和 GenericUDTF

1. GenericUDF1.1 编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个…就相对复杂点。简单API: org.apache.hadoop.hive.ql.exec.UDF复杂API: org.apache.hadoop.hive.ql.udf.generic.GenericUDF1.2 在hive 3.x中,UDF 已被声明@Depreacated 所以我们使用复杂API:GenericUDF1.3 复杂API// 只调用一次,在任何eval

2021-04-05 23:06:05 1114

转载 hive中的 lateral view(侧视图)

lateral view用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。例子表pageAds。它有两个列:pageid、adid_list:pageIdadid_listfront_page[1, 2, 3]contact_page[3, 4, 5]SELECT pageid, adidFROM pageAds LATERAL VIEW explode(adid_list) adTable

2020-11-08 18:08:47 415

原创 微信小程序开发 遇到的坑(持续记录)

1. 图片名称问题一定要将图片名,设置为英文,不可设置为中文,否则只会在开发者工具中加载成功,真机中加载失败谁弄中文谁傻逼!!!

2020-10-20 17:53:41 2294

原创 初步认识JVM-导学

JVM概述 1. JVM: Java Virtual Machine,也就是Java虚拟机 2. 所谓虚拟机是指:通过软件模拟的具有完成硬件系统功能的、运行在一个完全隔离环境中的计算机系统 3. JVM是通过软件来模拟Java字节码的指令集,是Java程序的运行环境JVM概念图JVM主要功能1.通过ClassLoader寻找和装载class文件2.解释字节码成为指令并执行,提供class文件的运行环境3.进行运行期间的内存分配和垃圾回收4.提供与硬件交互的平台虚拟机是Java平台无

2020-10-19 21:21:38 2073

原创 Hadoop集群搭建所遇到的一些问题

1.命令找不到环境变量配置的不正确.2.权限问题2.1 /home/hadoop目录权限2.1 创建完hadoop用后/home/hadoop目录权限问题./home/Hadoop2.2 秘钥文件权限1.如下图的提示,是当前hadoop用的公钥没有添加到认证文件中去解决方法:将node1节点上的hadoop用户的公钥添加到认证文件中[hadoop@node1 ~]$ chmod -R 755 .ssh/[hadoop@node1 ~]$ cd .ssh/[hadoop@node

2020-10-13 23:11:13 4109

原创 三节点大数据环境安装教程3总结

1.mac和windows 上安装vm虚拟机2.安装centos7操作系统3.禁用防火墙4.设置虚拟网络5.安装jdk6.配置jdk环境变量7.使用init 0命令关闭虚拟机8.对basecentos虚拟机做快照,方便出现问题时从快照进行还原.9.修改ip10.时间同步11.克隆三台虚拟机并修改ip.12.公钥和私钥13.创建普通用户14.配置hadoop15.修改权限目录16.格式化hadoop17.运行mapreduce程序....

2020-10-13 22:48:02 2173

原创 三节点大数据环境安装教程2

1.主机名和IP配置我们按照【三节点大数据环境安装教程1】已经完成虚拟机的克隆,但是我们克隆出来的三台虚拟机的配置是一样的需要做简单的修改.1.1 启动三台虚拟机1.2 配置三台虚拟机主机名首先使用root用户名和root密码分别登录三台虚拟机分别在三台虚拟机上执行命令:hostnamectl set-hostname nodeXXX(虚拟机名)第一台机器上设置主机名node1第二台机器上设置主机名node2第三台机器上设置主机名node3然后在三台机器上分别执行命令:logout发

2020-10-13 22:47:43 2626

原创 三节点大数据环境安装教程1

说明:1.教程中出现字体加粗和加红的说明需要大家仔细阅读,按照步骤进行安装,都是比较重要的细节,如果有同学忘记或者跳过说明的步骤,环境大家的过程中问题会非常的多.1.下载CentOS71.百度搜索centos–>2.点击centos官网连接–>3.点击DVD ISO–>4.点击http://ap.stykers.moe/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso连接进下载.2.安装虚拟机管理软件Windows安

2020-10-13 22:45:52 2407 1

原创 Spark调优-第二天

掌握数据倾斜调优了解shuffle 调优4.1 数据倾斜调优(60分钟)概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的S.

2020-10-08 20:35:17 5900

原创 Spark调优-第一天

掌握Spark开发的十大原则掌握基于Spark内存模型调优带领学生熟悉Spark官网1. 十大开发原则(60分钟)1.1 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也就是.

2020-10-08 20:29:08 5935

原创 深入浅出SparkSQL-第二章(进阶)

sparksql操作jdbc数据源sparksql保存数据操作sparksql整合hive1. jdbc数据源spark sql可以通过 JDBC 从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中1.1 通过sparksql加载mysql表中的数据添加mysql连接驱动jar包<dependency> <groupId>mysql</groupId> &lt.

2020-10-08 20:24:20 6043 1

原创 深入浅出SparkSQL-第一章(入门)

sparksql简介sparksql中DataFrame和DataSet的数据结构sparksql中DataFrame和DataSet的使用方式1.sparksql概述1.1 sparksql的前世今生Shark是专门针对于spark的构建大规模数据仓库系统的一个框架Shark与Hive兼容、同时也依赖于Spark版本Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务随着性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hiv.

2020-10-08 20:19:52 5915

原创 深入浅出Spark-第四章

spark自定义分区spark中的共享变量spark程序的序列化问题spark中的application/job/stage/task之间的关系spark on yarn原理和机制spark的资源分配方式1. spark自定义分区1.1 自定义分区说明在对RDD数据进行分区时,默认使用的是HashPartitioner该函数对key进行哈希,然后对分区总数取模,取模结果相同的就会被分到同一个partition中HashPartitioner分区逻辑: key.hashcod.

2020-10-08 20:14:27 5975

原创 深入浅出spark-第二章(RDD算子)

1. RDD是什么RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合.Dataset: 就是一个集合,存储很多数据.Distributed:它内部的元素进行了分布式存储,方便于后期进行分布式计算.Resilient: 表示弹性,rdd的数据是可以保存在内存或者是磁盘中.2. RDD的五大属性(1)A list of partition

2020-10-08 20:05:54 5928

原创 深入浅出Spark-第一章(Spark简介)

1. spark是什么Apache Spark™ is a unified analytics engine for large-scale data processing.spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce

2020-10-08 20:00:54 6101

原创 深入浅出Flink-第二章(Transformation)

深入浅出Flink第二天1 常见Transformation操作1.1 map和filter/** * 数据源:1 2 3 4 5.....源源不断过来 * 通过map打印一下接受到数据 * 通过filter过滤一下数据,我们只需要偶数 */public class MapDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment

2020-10-08 19:49:34 6481

原创 深入浅出Flink-第一章(简介及简单使用)

1 Flink简介Apache Flink® — Stateful Computations over Data StreamsApache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.1 处理无界和有界数据任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。数据可以被作为 无界 或者 有界 流来处

2020-10-08 19:18:04 6913

原创 大数据开发-hive(入门篇)

大数据分析利器之hive一、环境准备安装好对应版本的hadoop集群安装mysql服务二、知识要点1. Hive是什么(40分钟)1.1 hive的概念Hive:由Facebook开源,用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将Hive SQL转化成MapReduce程序1.2 Hive与数据库的区别Hive 具有 SQL 数据库的外表,但应用场景完全不同。H

2020-08-29 17:25:13 15444 1

原创 5节点Hadoop HA集群搭建

5节点hadoop-2.7.3 HA集群搭建一、集群规划共5个节点,主机名分别是node-01、node-02、node-03、node-04、node-05初始启动集群,node-01上运行active namenode即主namenode;node-02上运行standby namenode即从namenode每个节点运行的进程如下表机器名运行进程node-01NameNode/zkfc/Zookeeper/Journalnode/DataNode/NodeManag

2020-08-29 17:11:24 9621

原创 ZOOKEEPER之访问控制ACL

ACL访问控制列表1 为什么要用ACLzk做为分布式架构中的重要中间件,通常会在上面以节点的方式存储一些关键信息,默认情况下,所有应用都可以读写任何节点,在复杂的应用中,这不太安全,ZK通过ACL机制来解决访问权限问题2 何为ACLACL(Access Control List)可以设置某些客户端,对zookeeper服务器上节点的权限,如增删改查等3 ACL种类ZooKeeper 采用 ACL(Access Control Lists)策略来进行权限控制。ZooKeeper 定义了如下5种权限

2020-08-29 17:07:07 9139

原创 ZooKeeper分布式协调框架

ZooKeeper分布式协调框架1. 为什么要用ZooKeeperZooKeeper简单易用,能够很好的解决分布式框架在运行中,出现的各种协调问题。比如集群master主备切换、节点的上下线感知等等2. 什么是ZooKeeper?ZooKeeper是一个分布式的,开放源码的,用于分布式应用程序的协调服务(service);是Google的Chubby的一个开源实现版3. ZooKeeper应用概览service攘其外,安其内简单:原语paxos -> raft -> zab

2020-08-29 17:01:16 9146

原创 极简ZooKeeper安装部署

1 搭建zookeeper​ hadoop做高可用时需要使用zookeeper,所以在此先安装它.1.1 配置zookeeper(1).下载zookeeper-3.4.14.tar(2).解压到/opt/bigdata/zookeeper目录下(如果目录不存在可以使用命令:mkdir -p /opt/bigdata/zookeeper 创建)(3).配置zookeeper的环境变量如下# .bash_profile# Get the aliases and functionsif [ -f

2020-08-29 16:48:50 8721

原创 Yarn资源调度系统

Yarn资源调度系统1. yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,不再强迫使用MapReduce框架。当企业的数据在HDFS中是可用的,有多种数据处理方式是非常重要的。有了Hadoop2.0和YARN,机构可以采用

2020-08-29 16:40:54 9655

原创 MapReduce并行编程模型

MapReduce并行编程模型1. MapReduce编程模型MapReduce是采用一种分而治之的思想设计出来的分布式计算框架如一复杂的计算任务,单台服务器无法胜任时,可将此大任务切分成一个个小的任务,小任务分别在不同的服务器上并行的执行;最终再汇总每个小任务的结果MapReduce由两个阶段组 成:Map阶段(切分成一个个小的任务)、Reduce阶段(汇总小任务的结果)。1.1 Map阶段map()函数以kv对作为输入,产生一系列kv对作为中间输出写入本地磁盘。1.2 Redu

2020-08-29 16:09:25 10084

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除