2021年02月_leveretz

原创大数据平台关键功能设计

平台关键功能设计系统功能视图设计承接业务能力视图设计的内容，通过对业务需求点的总结、分析和归纳，提炼出对应的系统功能，形成数据接入管理、数据存储管理、数据加工管理、数据共享管理、运维管理、服务监测管理、基础资源管理和系统管理七大管理功能。数据接入管理数据源配置管理数据源配置管理，配置大数据平台可以接入的数据源，记录数据源相关信息，定期检测数据可用状态，配置信息也可用于资源监视等功能。接入方式配置管理接入方式配置管理，配置大数据平台的数据接入方式.

2021-02-22 16:21:54 905

原创大数据平台建设实施方案

实施方案实施思路基于平台目标、政策、规划以及现状的了解，建议采用“长期规划，分步实施”的建设思路：长期规划：对数据中心及决策支持系统进行长、中、短期的规划，对于投入小、见效快的内容纳入短期规划，对于难度大，见效慢的内容纳入中长期规划；分步实施：搭建数据中心及决策支持系统基础平台，在基础平台的基础上按照增量建设的方式分阶段实现规划的短、中、长期建设内容。具体来说，“长期规划，分步实施”模式可以带来以下益处：1、项目的长、中、短期规划是对整体目标的分解，有助于把握项目的...

2021-02-22 16:21:00 7071

原创大数据平台建设关键技术

平台关键技术设计架构风格云计算Google在2006年率先提出“云计算”的概念。所谓“云计算”，是一种大规模的分布式模型，通过网络将抽象的､可伸缩的､便于管理的数据能源､服务､存储方式等传递给终端用户。狭义云计算是指IT基础设施的交付和使用模式，指通过网络以按照需求量的方式和易扩展的方式获得所需资源。广义云计算指服务交付和使用模式，指通过网络以按照需求量和易扩展方式获得所需服务。目前，云计算可以认为包含3个层次的内容：基础设施即服务（IaaS）､平台即服务（PaaS）和软件即服务（Sa.

2021-02-22 16:17:43 8489 2

原创大数据资料整理

什么是大数据大数据就是海量数据的高效处理。数据先要通过存储层存储下来，然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合，让大数据最终产生价值。数据存储层数据有很多分法，有结构化，半结构化，非结构化；也有元数据，主数据，业务数据；还可以分为GIS，视频，文件，语音，业务交易类各种数据。传统的结构化数据库已经无法满足数据多样性的存储要求，因此在RDBMS基础上增加了两种类

2021-02-22 16:15:27 1742

原创大数据建设背景介绍

随着移动互联网､物联网和云计算技术的迅速发展，开启了移动云时代的序幕，大数据（BigData）也越来越吸引人们的视线｡正如1982年世界预测大师､未来学家约翰.奈斯比特（John.Naisbitt）在他的著作中所提到的：“我们现在大量生产信息，正如过去我们大量生产汽车一样”､“人类正被信息淹没，却饥渴知识”，等等诸的预言均在当下得到了充分的证实，这也恰恰说明，世界正处一个信息爆照的时代｡Internet的出现缩短了人与人､人与世界之间的距离，整个世界连成一个“地球村”，人们通过网络无障碍交流交换信息和

2021-02-22 16:14:43 5794

原创 HBase介绍

HBase介绍概述 HBase是什么？ HBase是一种NOSQL数据库，是基于Apache Hadoop的、分布式的、多版本的、面向列的数据库，能够对大型数据提供随机、实时的读写访问。特点横向扩展性强支持很高的写吞吐有良好的随机读性能高可用性，故障可恢复性错误隔离性。一个结点的错误不会影响到其它结点，磁盘故障只会对相应的小规模的数据产生影响。可在廉价PC Server搭建大规模结构化存储集群适用场景和实例场景大表，数十亿行、数百万列的...

2021-02-22 16:13:39 536

原创 drools6.4.0.Final-workbench安装

1、准备CentosMysql5.6 or aboveApache-tomcat-7.0.70.zipJdk-1.7 or 1.8kie-drools-wb-6.4.0.Final-tomcat7.war2、tomcat解压tomcat到/opt/tomcat-drools-wb。unzip Apache-tomcat-7.0.70.zipmv Apache-tomcat-7.0.70.zip tomcat-drools-wb将下列jar包拷贝到tomcat-d.

2021-02-22 16:10:36 113

原创大数据平台架构设计

大数据架构大数据架构，如下图：1、通过ETL工具将数据源抽取到HDFS存储；2、通过Hive清洗、处理和计算原始数据；3、Hive清洗处理后的结果，如果是面向海量数据随机查询场景的可存入Hbase;4、数据应用从HBase查询数据；大数据架构实例1，如下图：大数据架构实例2，如下图：大数据架构实例3，如下图：大数据架构实例4，如下图：大数据架构实例5：大数据架构实例6：一、场景1.数据源主要为 M...

2021-02-20 00:17:55 9372 1

原创 spark3.0.1安装

规划cancer01 master/workercancer02 workercancer03 workercancer04 workercancer05 worker准备su hadoop安装scala每台机器上cd /usr/localtar zxf scala-2.13.4.tgzmv scala-2.13.4 scalachown -R hadoop:hadoop scalavim /etc/profileexport SCAL..

2021-02-20 00:17:17 119

原创 spark3.0.1-bin-hadoop3.2安装（win10伪环境版）

下载spark-3.0.1-bin-hadoop3.2.tgzscala-2.13.4.zipAnaconda3-2020.11-Windows-x86_64.exepyspark-3.0.1.tar.gzpy4j-0.10.9.tar.gz解压解压spark到D:\servers\spark-3.0.1-bin-hadoop3.2解压scala到D:\servers\scala-2.13.4配置SPARK_HOME=D:\servers\spark...

2021-02-19 12:26:10 860

原创 spark2.1安装

规划cancer01 master/workercancer02 workercancer03 workercancer04 workercancer05 worker准备su hadoop安装scala每台机器上cd /usr/localwget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgztar zxf scala-2.11.8.tgzmv scala-2.11.8..

2021-02-19 12:25:47 113

原创 nginx1.18.0集群安装（vm版）

主机规划192.168.31.101 cancer01 nginx loader balancer192.168.31.102 cancer02 nginx web1192.168.31.103 cancer03 nginx web2环境准备以下设置请根据实际情况自行配置，此处略设置IP 设置主机名关闭防火墙关闭selinux 禁用透明大页设置虚拟内存 ...

2021-02-19 12:25:32 264

原创 nginx1.18.0集群安装（docker版）

主机规划192.168.31.101 cancer01 nginx loader balancer192.168.31.102 cancer02 nginx web1192.168.31.103 cancer03 nginx web2环境准备以下设置请根据实际情况自行配置，此处略设置IP 设置主机名关闭防火墙关闭selinux 禁用透明大页设置虚拟内存 ...

2021-02-19 12:25:17 449

原创 nginx1.10.2集群安装

经典http://zyan.cc/nginx_php_v6/下载wget http://nginx.org/download/nginx-1.10.2.tar.gz准备yum install -y pcre-develyum install gcc gcc-c++ ncurses-devel perlyum -y install make gcc gcc-c++ ncurses-develyum -y install zlib zlib-develyum -y in...

2021-02-19 12:25:02 586 2

原创 kafka_2.13-2.7.0安装

Kafka集群安装规划：cancer01 1cancer02 2cancer03 3说明1：在cancer01主机上配置好kafka目录后，复制到其他主机再修改下即可。说明2：每台主机上都要安装zookeeper，配置好zookeeper集群。解压：tar -xzvf kafka_2.13-2.7.0.tgzmv kafka_2.13-2.7.0 /usr/local/kafka更改所有者chown -R ha...

2021-02-19 12:24:23 2032

原创 impala3.4.0安装

Impala安装建议通过cloudera cm安装不建议单独RPM安装：https://blog.csdn.net/m0_38003171/article/details/79851240Impala使用登录impala-shell同步hive元数据invalidate metadata; #同步hive元数据show databases; #查看同步之后的数据库创建数据库create database db_hive_...

2021-02-19 12:24:08 1326 1

原创 hive3.1.2安装

备注：在安装Hive3.1.2之前，请首先安装Hadoop3.1.3。一、安装Hive3.1.21. 下载并解压Hive安装包tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/localcd /usr/local/mv apache-hive-3.1.2-bin hive chown -R hadoop:hadoop hive ...

2021-02-19 12:23:42 895

原创 hadoop3.2.1安装（vm版）

Hadoop3.2.1分布式高可用安装1 下载安装包 jdk-8u271-linux-x64.rpm hadoop-3.2.1.tar.gz zookeeper-release-3.6.2.tar.gz 2 主机规划 IP 主机名用途系统进程用户密码操作系统 CPU 内存 ...

2021-02-19 12:23:19 891

原创 hbase2.4.0安装

Hbase2.4.0安装说明：安装zookeeper、hadoop集群解压：tar -zxvf hbase-2.4.0-bin.tar.gz -C /usr/local改名cd /usr/localmv hbase-2.4.0 hbase更改所有者sudo chown -R hadoop:hadoop hbase查看版本cd /usr/local/hbase/bin./hbase version修改profilevim /et...

2021-02-19 12:22:32 2316 2

原创 hadoop3.0.3安装（win10伪环境版）

说明：Hadoop3在windows下能用的版本是hadoop-3.0.3。其他版本都会报如下错误：java.lang.UnsupportedOperationException at java.nio.file.Files.setPosixFilePermissions(Files.java:2044)建议在windows下使用hadoop-3.0.3版本下载hadoop-3.0.3.tar.gzwinutils-master.zip（https:...

2021-02-18 14:25:28 530

原创 hadoop2.7.2安装（vm版）

1、下载Centos7Jdk-1.7 or 1.8hadoop-2.7.2.tar.gz2、准备主机规划家庭IP 公司IP 主机名用户作用 192.168.116.134 10.169.60.36 cancer01 hadoop namenode resour...

2021-02-18 14:24:50 848

原创 flume1.9安装

Flume介绍介绍（1）高可靠性，Flume提供了end to end的数据可靠性机制（2）易于扩展，Agent为分布式架构，可水平扩展（3）易于恢复，Channel中保存了与数据源有关的事件，用于失败时的恢复（4）功能丰富，Flume内置了多种组件，包括不同数据源和不同存储方式（1）Source：数据源，简单的说就是agent获取数据的入口。（2）Channel：管道，数据流通和存储的通道。一个source必须至少和一个channel关联。（3）Sink：用来接收ch.

2021-02-18 14:23:33 549

原创 es7.10.2安装

ES介绍：首先用户将数据提交到Elastic Search 数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。Elasticsearch是分布式的，这意味着索引可以被分成分片，每个分片可以有0个或多个副本。每个节点托管一个或多个分片，并充当协调器将操作委托给正确分片。再平衡和路由是自动完成的...

2021-02-18 14:22:07 618

原创 elk7.10.2安装（win10伪环境版）

ELK介绍Near Realtime（近实时）：Elasticsearch是一个近乎实时的搜索平台，这意味着从索引文档到可搜索文档之间只有一个轻微的延迟(通常是一秒钟)。Cluster（集群）：群集是一个或多个节点的集合，它们一起保存整个数据，并提供跨所有节点的联合索引和搜索功能。每个群集都有自己的唯一群集名称，节点通过名称加入群集。Node（节点）：节点是指属于集群的单个Elasticsearch实例，存储数据并参与集群的索引和搜索功能。可以将节点配置为按集群名称加入特定集群，默认情况下，每个

2021-02-18 14:21:21 424

原创 elk7.10.2安装（vm版）

elk7.10.2分布式集群安装（centos7）ELK安装主机规划192.168.31.101 cancer01 es master/es datanode/logstash192.168.31.102 cancer02 es master/es datanode/logstash192.168.31.103 cancer03 es master/es datanode/logstash/kibana...

2021-02-18 14:18:43 391

原创 elk7.10.2分布式集群安装（docker版）

elk7.10.2分布式集群安装（docker版）结构设计首先，logstash 具有日志采集、过滤、筛选等功能，功能完善但同时体量也会比较大，消耗系统资源自然也多。filebeat作为一个轻量级日志采集工具，虽然没有过滤筛选功能，但是仅仅部署在应用服务器作为我们采集日志的工具可以是说最好的选择。但我们有些时候可能又需要logstash的过滤筛选功能，所以我们在采集日志时用filebeat，然后交给logstash过滤筛选。其次，logstash的吞吐量是有限的，一旦短时间内fileb.

2021-02-18 14:14:57 809

原创 Docker安装

Docker三剑客介绍官方定义1：Docker是一个开源的应用容器引擎，开发者可以打包他们的应用及依赖到一个可移植的容器中，发布到流行的Linux机器上，也可实现虚拟化。官方定义2：k8s是一个开源的容器集群管理系统，可以实现容器集群的自动化部署、自动扩缩容、维护等功能。传统的虚拟技术，在将物理硬件虚拟成多套硬件后，需要再每套硬件上都部署一个操作系统，接着在这些操作系统上运行相应的应用程序。而Docker容器内的应用程序进程直接运行在宿主机(真实物理机)的内核上，Docker引擎将一些各自独立的

2021-02-18 14:12:43 115

原创 centos环境准备

centos环境准备环境准备主要包括如下内容：设置IP 设置主机名关闭防火墙关闭selinux 禁用透明大页设置虚拟内存设置文件句柄数和进程数主机时间同步配置免密安装jdk 添加用户授权sodu 设置防火墙端口 ……设置IP在每台主机上设置IP ...

2021-02-18 14:09:14 243

转载转载：CDH6.2离线安装（整理版）

引用地址：https://www.cnblogs.com/swordfall/p/10816797.html　CDH6.2离线安装（整理版）1.概述 CDH，全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，提供了Hadoop的核心（可扩展存储、分布式计算），最为重要的是提供基于web的用户界面。CDH的优点：版本划分清晰...

2021-02-18 14:07:53 3580 4

大数据平台关键功能设计

大数据资料整理

大数据平台建设实施方案

大数据平台建设关键技术

大数据平台建设背景介绍

zookeeper3.4.9集群安装

nginx1.10.2集群安装

Java端集成drools6.4.0.Final

HBase介绍介绍介绍

drools6.4.0.Final-workbench安装

spark2.1集群安装

hadoop2.7.2HA集群安装

空空如也