大数据架构
文章平均质量分 83
蜗牛杨哥
成功就是将个人潜能发挥到极限!&&以及大多数人的努力程度之低,根本还轮不到拼天赋 【<br> |||| </br>】
决定出去看看,"看看那些在巨大压力下生活的老友们, 如果他们生活得还很好就取取经,如果他们生活状况一般, 就忽悠他们一起干事业"。找一些志同道合的人结伴而行,才能解决一个人单打独斗的势单力薄。尤其是在这个竞争日趋激烈的时代, 合伙创业, 会让很多事情从不可能变为可能, 从小打小闹发展到大规模运作。
展开
-
Centos7 Hadoop集群架构
**Cenos7 Hadoop集群搭建**https://www-us.apache.org/dist/hadoop/common/hadoop-2.8.5/一.在node-1的主机上执行下面的命令:ssh localhost – 无.ssh目录,则执行该命令生成cd ~/.ssh/ 没有该目录,先执行上面的...原创 2019-11-08 19:14:43 · 260 阅读 · 0 评论 -
Kafka监控与管理利器(Kafka-manager)
Kafka-manager的基本配置和运行想要查看和管理Kafka,完全使用命令并不方便,我们可以使用雅虎开源的Kafka-manager,GitHub地址如下:https://github.com/yahoo/kafka-manager/releases...原创 2020-05-19 21:34:45 · 273 阅读 · 0 评论 -
kafka监控工具安装及页面JS报错解决方案(KafkaOffsetMonitor)
https://github.com/quantifind/KafkaOffsetMonitor/releases/download/v0.2.1/KafkaOffsetMonitor-assembly-0.2.1.jar原创 2020-05-19 21:05:28 · 782 阅读 · 0 评论 -
Scala语言概述与实战(超详细)
2.1.1 计算机的缘起 2.1.2 编程范式 2.1.3 Scala简介2.1.4.2 安装Scala登录Scala官网,下载scala-2.11.8.tgz把scala命令添加到path环境变量中启动Scala解释器:在Shell命令提示符界面中输入“scala”命令后,会进入s...原创 2020-05-19 16:18:04 · 1220 阅读 · 0 评论 -
Spark及RDD数据结构(一)(超详细)
3.3.1 基本概念3.3.2 架构设计 图 Spark中各种概念之间的相互关系3.3.3 Spark运行基本流程SparkContext对象代表了和一个集群的连接3.3.4 RDD的设计与运行原...原创 2020-05-19 15:52:32 · 1328 阅读 · 0 评论 -
Spark MLlib机器学习 | 算法综合实战(一)(史上最详细)
====================================== ============================8.1.1 什么是机器学习机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。机器学习强调三个关键词:算法、经验、性能从最小二乘法说起 ......原创 2020-05-19 14:39:43 · 6968 阅读 · 1 评论 -
Spark Streaming综合实战(一)(史上最详细)
很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息对静态数据和流数据的处理,对应着两种截然...原创 2020-05-19 13:13:40 · 9693 阅读 · 2 评论 -
Spark SQL综合实战(一)(史上最详细)
序言: 关系数据库已经很流行 关系数据库在大数据时代已经不能满足要求 首先,用户需要从不同数据源执行各种操作,包括结构化和非结构化数据 其次,用户需要执行高级分析,比如机器学习和图像处理 在实际大数据应用中,经常需要融合关系查询和复杂分析算法(比如机器学习或图像处理),但是,缺少这样的系统。Spark SQL填补了这个鸿沟: 首先,可以提供DataFrame...原创 2020-05-19 12:11:14 · 1616 阅读 · 0 评论 -
Hadoop2.8.5集群查看历史任务服务JobHistoryServer
Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器。 基于ResourceManager (YARN)调度及管理的并行任务提交...原创 2020-04-24 08:59:14 · 2987 阅读 · 1 评论 -
Scala实现Kafka生产者与消费者实例
(一)maven构建<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http...原创 2020-04-21 18:52:41 · 6292 阅读 · 0 评论 -
Spark Streaming分析Kafka数据(实战)
场景:通过Spark Streaming 拉取Kafka中的数据进行消费(1)数据灌入kafka (生产者:代码如下)maven pom.xml配置如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt...原创 2020-04-21 11:13:54 · 501 阅读 · 0 评论 -
集群部署下的分布式锁:[【SpringBoot电商项目实战-Curator分布式锁实现方案】
一、引言:网上的分布式锁文章千篇一律,而此文从实际高并发场景深入浅出,缘由剖析,不管是应对面试官的层层"逼问",还是实际项目,相信都能游刃有余,你学会了吗?还不会建议请先去看下哦[美女开头,让你一饱眼福....]。 分布式锁用途:在分布式环境下协同共享资源的使用。2、分布式锁思路分析锁特点: 排他性:同一时间,只有一个线程能获得; 阻塞性:其它未抢到的线程阻塞等待,直到锁被释放,再继续抢; 可重入性:线程获得锁后,...原创 2020-05-15 01:17:07 · 440 阅读 · 0 评论 -
Centos7部署CDH5(一):环境准备篇
一:版本信息:centos7:CentOS Linux release 7.2.1511 (Core)python: Python: 2.7.5(操作系统自带)cm包: cloudera-manager-centos7-cm5.10.2_x86_64.tar.gz服务器规划本次搭建一共用了5台机器一台master,4台agent主机名 IP地址 ...原创 2020-04-29 13:02:52 · 488 阅读 · 0 评论 -
Flink 集群搭建(基于flink on YARN模式)
基于Flink on YARN的flink集群规划 主机名 IP 说明 centoshadoop1 192.168.227.140 StandaloneSessionClusterEntrypoint(主节点进程名称) centoshadoop2 ...原创 2020-04-23 12:48:04 · 6152 阅读 · 3 评论 -
Flink 集群搭建(基于Standalone模式)
基于standalone的flink集群规划(基于standalone模式) 主机名 IP 说明 centoshadoop1 192.168.227.140 StandaloneSessionClusterEntrypoint(主节点进程名称) centosha...原创 2020-04-22 19:39:37 · 2333 阅读 · 0 评论 -
Flink流式框架原理及特性探究
Flink是一个开源的流式处理框架,它具有如下特点:分布式: Flink 程序可以运行在多台机器上。 高性能: 处理性能比较高。 高可用: 由于Flink 程序本身是稳定的,因此它支持高可用性(High Availability,HA)。 准确:Flink 可以保证数据处理的准确性.Flink是Java代码实现的,它同时支持实时流处理和批处理。对于Flink而言,作为一个流处理框架...原创 2020-04-22 10:50:53 · 690 阅读 · 0 评论 -
Hadoop HA(YARN集群模式)启动报错排查
sbin/yarn-daemon.sh start resourcemanager启动后Jps进程消息日志报错信息:[hadoop@centoshadoop2 logs]$ tail 500 yarn-hadoop-resourcemanager-centoshadoop2.logtail: 无法打开"500" 读取数据: 没有那个文件或目录==> yarn-hadoop-r...原创 2020-04-20 18:01:32 · 739 阅读 · 0 评论 -
HBase Java API操作(增删改查)
maven进行项目的管理 引入下面依赖的jar包<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.11</version&g...原创 2020-04-01 15:41:39 · 902 阅读 · 0 评论 -
Sqoop数据迁入迁出实战
一Sqoop是什么Sqoop是一种用于在Hadoop和关系数据库(RDBMS,如MySQL或Oracle)之间传输数据的工具,使用Sqoop可以批量将数据从关系数据库导入到Hadoop分布式文件系统(HDFS)及其相关系统(如HBase和Hive)中,也可以把Hadoop文件系统及其相关系统中的数据导出到关系数据库中,如下图: ...原创 2020-03-31 21:50:18 · 581 阅读 · 0 评论 -
Hive数据库及表操作(三)
1分桶表操作(1)创建分桶表创建用户表”user_info”,并根据user_id进行分桶,桶的数量为6,命令如下:create table user_info (user_id int,name string)clustered by(user_id)into 6 bucketsrow...原创 2020-03-31 13:30:27 · 575 阅读 · 0 评论 -
Centos7搭建Sqoop数据转移工具
全程hadoop/hadoop账号下操作创建sqoop安装的目录mkdir -p /home/hadoop/sqoop解压到安装目录tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/hadoop/sqoop把解压后生成的文件夹重新命名为sqoop-1.4.7cd /home/hadoop/sqoop...原创 2020-03-24 17:26:43 · 364 阅读 · 0 评论 -
Hadoop2.8.5的YARN的高可用集群搭建(YARN HA)
YARN HA搭建与HDFS HA类似,YARN集群也可以搭建HA功能,下面我们来讲解YARN集群的HA架构原理和HA的具体搭建步骤。7.1 架构原理在Hadoop的YARN集群中,ResourceManager负责跟踪集群中的资源,以及调度应用程序(例如MapReduce作业)。在Hadoop2.4之前,集群中只有一个Res...原创 2020-03-24 14:13:26 · 1317 阅读 · 1 评论 -
HBase集群HA高可用搭建
前提: 搭建好HBase集群一,修改centoshadoop1节点上的hbase-site.xml配置文件添加如下配置: <!-- 开启hbase ha高可用如果要设置多个 Hmaster,那么我们只需要提供端口 60000,因为选择真正的 master 的事情会有 zookeeper 去处理--><property><...原创 2020-03-23 11:34:15 · 296 阅读 · 0 评论 -
HBase分布式集群搭建
HBase集群安装由于HBase集群建立在hadoop集群与zookeeper集群基础上,所以首先搭建好分hadoop与zookeeper集群。1解压hbase-1.4.11-bin.tar.gz安装包创建安装解压目录mkidr -p /home/hadoop/hbasetar -zxvf hbase-1.4.11-...原创 2020-03-22 18:08:03 · 407 阅读 · 0 评论 -
Hive数据库及表操作(一)
Hive数据库操作1. 创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_valu...原创 2020-03-22 11:46:00 · 2355 阅读 · 0 评论 -
Hive远程模式搭建
基于Hadoop2.8.5的数据仓库Hive远程模式搭建远程模式分为客户端和服务器端两部分,服务器的配置与本地模式相同,客户端需要单独配置。远程模式是将Metastore分离出来,作为一个单独的进程,并且可以部署多个,运行与不同的计算机上。这样的模式,将数据库层完全置于防火墙后,使客户端访问时不需要数据库凭据(用户名和密码),提高了可管理性和安全性。 ...原创 2020-03-21 11:26:41 · 832 阅读 · 0 评论 -
Hadoop2.8.5的HDFS的高可用集群搭建(HDFS HA)
HDFS结合Zookeeper实现故障转移HDFS HA集群角色的分配(在搭建好的集群的基础上进行修改相应的配置文件) 节点 角色 centoshadoop1 NameNode DataNode JournalNode zkfc cen...原创 2020-03-20 20:05:04 · 667 阅读 · 0 评论 -
Hive本地模式搭建
(基于Hadoop2.8.5的本地模式Hive安装)本安装依赖Haddop2.8安装一、下载Hive与MySQL jdbc 连接驱动apache-hive-2.3.6-bin.tar.gz 官方网站mysql-connector-java-5.1.47.tar.gz oracle官网二、解压安装Hive1、使...原创 2020-03-20 19:36:58 · 926 阅读 · 0 评论 -
Hive数据结构
Hive简介及其数据结构 Hive的点点滴滴Hive是一个基于Hadoop的数据仓库架构,使用SQL语句读...原创 2020-03-19 20:38:34 · 1813 阅读 · 0 评论 -
Hadoop的核心组件HDFS(分布式文件系统HDFS)
Hadoop的核心组件HDFS(分布式文件系统HDFS)HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,在大数据开发中分布式计算对海量数据进行存储与管理。它基于流数据模式访问和处理超大文件的需求二开发,可以运行在廉价的商用服务器上...原创 2020-03-13 20:07:50 · 3586 阅读 · 0 评论 -
Hadoop并行计算框架核心组件MapReduce
Hadoop核心组成框架MapReduce框架MapReduce的工作原理主要是: 通过Map任务读取HDFS中的数据块,这些数据块由Map任务以完全并行的方式处理;然后将Map任务的输出结果进行排序后输入到Reduce任务中;最后Reducer任务将计算的结果输出到HDFS...原创 2020-03-13 20:00:11 · 1540 阅读 · 0 评论 -
Storm分布式实时计算系统搭建
Storm实时计算系统Apache Storm 是一个免费的开源分布式实时计算系统。Storm 可以非常容易地实时处理无限的流数据。所谓实时处理是指在每条数据的产生时刻不确定的情况下,一旦有数据产生,系统就会立刻对该...原创 2020-03-10 22:27:27 · 539 阅读 · 0 评论 -
Hadoop常用的操作命令
HDFS系统的常用操作命令,若没有配置Hadoop的系统PATH变量,则需要进入到$HADOOP_HOME/bin 目录中执行.1. ls使用ls命令可以查看HDFS系统中的目录和文件。例如,查看HDFS文件系统根目录下的目录和文件,命令如下:$ hadoop fs -ls /递归列出HDFS文件系统根目录下的所有目录和文件,命令如下:$ hadoop fs -ls -R ...原创 2019-12-26 22:08:50 · 2507 阅读 · 0 评论 -
HBase 杂谈与搭建
引论: Apache HBase是一个开源的,分布式,非关系型的列式数据库,HBase位于Hadoop生态系统的结构化存储层,数据存储于分布式文件系统的HDFS并且使用Zookeeper作为协调服务。 HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力。Zookeeper则为HBase提供了稳定的服务和实现恢复机制。 ...原创 2019-12-25 11:54:56 · 628 阅读 · 0 评论 -
flume安装与实战
flume安装:官网下载:http://archive.apache.org/dist/flume/一.进入该下载包目录:cd /toolswget http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gztar -zxvf apache-flume-1.8.0-bin.tar.gz ...原创 2019-12-24 22:11:23 · 193 阅读 · 0 评论