大数据分布式平台
文章平均质量分 72
code__online
这个作者很懒,什么都没留下…
展开
-
Hbase协处理器常见问题
常见问题Hbase协处理器同步数据到elasticsearch搜索引擎,如果代码有问题,将会导致Hbase集群挂掉,无法重启Hbase集群。解决方案修改hbase配置文件hbase-site.xml<property> <name>hbase.coprocessor.abortonerror</name> <value>false</value></property>重启hbase集群,解绑hbase表的协原创 2021-06-19 21:23:52 · 467 阅读 · 3 评论 -
Elasticsearch原理
基本概念索引(Index)ES将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说,索引相当于SQL中的一个数据库,或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。类型(Type)类型是索引内部的逻辑分区(category/partitio...转载 2021-06-10 17:41:32 · 195 阅读 · 0 评论 -
实时计算Flink
实时计算Flink三种实时计算框架storm、spark streaming和flink的对比storm延迟低但吞吐量小spark streaming吞吐量大,但延迟高flink是一种兼具低延迟和高吞吐量特点的流计算技术,还是一套框架中能同时支持批处理和流处理的一个计算平台Flink流处理特性高吞吐、低延迟、高性能支持带有事件时间的窗口(Window)操作支持有状态计算的Exactly-once语义支持高度灵活的窗口(Window)操作,支持基于time、count、session原创 2021-05-02 19:48:22 · 999 阅读 · 9 评论 -
大数据之Hue
1. Hue简介HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。2. Hue与其他框架的集成2.1 Hue与HDFS2.1.1 集群环境master原创 2020-10-18 15:56:11 · 558 阅读 · 0 评论 -
Centos7安装hue
Hue 在编译时有两种方式:通过maven、ant编译通过python编译(centos7下的Python为2.7版本)两种方式都是在hue目录下 make apps。第一种方式需要先配置maven、ant的环境注:不要使用root 用户安装,选择集群中的一台机器安装hue(不能安装mysql)1. 必备软件环境Centos 6.8Python 2.7 (系统自带)apache-maven-3.3.9-bin.tarjdk-8u171-linux-x64.tarapache-ant-1原创 2020-10-18 15:13:16 · 547 阅读 · 1 评论 -
hue-hbase查询
hue入口:http://hue服务器地址:8888/(默认端口为8888)hue web页面如下选择Data Browser下的Hbase,进入Hbase页面选择Hbase的一个表,点击进入,可查看此表的数据格式Hbase表的数据查询窗口如下,查询语句格式如图主键查询输入主键rowkey,rowkey2说明:查询对应主键rowkey的数据记录例如:查询主键100_1233,100_1237对应记录主键的前缀模糊查询row_prefix*说明:根据主键的前几位进行模糊查询,默原创 2020-10-18 12:03:36 · 3605 阅读 · 0 评论 -
kafka可视化之kafka Manager
1. 下载kafka-manager[root@master local]# wget https://github.com/yahoo/CMAK/archive/1.3.3.15.tar.gz2. 解压至指定目录[root@master local]# tar -zxvf 1.3.3.15.tar.gz -C /usr/local/3. 修改配置文件conf/application.conf#配置zookeeper集群信息kafka-manager.zkhosts="master:2181原创 2020-09-19 16:50:59 · 191 阅读 · 0 评论 -
Kafka Monitor安装
1. 下载KafkaOffsetMonitor-assembly-0.4.6.jar2. 在指定文件下下创建kafka-offset-console目录[root@master local]# mkdir kafka-offset-console3. 将jar包放至kafka-offset-console目录下4. 在kafka-offset-console目录下创建启动脚本start.sh#!/bin/bashjava -cp KafkaOffsetMonitor-assembly-0.4.原创 2020-09-19 16:35:56 · 622 阅读 · 0 评论 -
大数据之Kafka集群搭建
1. kafka集群masterslave1slave2zookeeperzookeeperzookeeperkafkakafkakafka2. 下载kafka安装包[root@master local]# wget https://archive.apache.org/dist/kafka/0.10.2.1/kafka_2.11-0.10.2.1.tgz3. kafka集群部署3.1 解压至安装路径[root@master local]# tar -z原创 2020-09-19 15:49:37 · 313 阅读 · 0 评论 -
Hive1.x安装
1. 下载hive源码包master[root@master local]# wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz2. 解压hive压缩包至指定路径[root@master local]# tar -zxvf apache-hive-1.2...原创 2019-06-23 15:06:33 · 473 阅读 · 0 评论 -
Spark+Scala安装
集群环境hostnameIPmaster192.168.63.12slave1192.168.63.13slave2192.168.63.14Scala安装master下载scala包wget https://downloads.lightbend.com/scala/2.11.4/scala-2.11.4.tgz解压至指定路径tar -z...原创 2019-06-17 15:10:10 · 1001 阅读 · 0 评论 -
大数据之实时处理SparkStreaming
1. Spark Streaming基础知识Spark Streaming是spark核心API的一个扩展,可以实现高吞吐量、有容错机制的实时流数据处理。支持多种数据源获取数据:Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后保存在HDFS、DataBase等。Spark Streaming将接收的实时流数据,按照一定时间间隔,对数据进...原创 2019-05-26 15:45:43 · 1546 阅读 · 0 评论 -
Yarn集群资源管理
hadoop1.0和hadoop2.0架构差异hadoop1.0:HDFS和MapReduce两个重要的进程:jobtracker和tasktrackerjobtracker:负责资源管理和任务调度与监控tasktracker:负责各个节点的任务调度与监控hadoop2.0:HDFS、yarn(集群资源管理系统)、计算框架{MapReduce、Spark、Storm……}yar...原创 2019-05-26 15:05:01 · 2552 阅读 · 0 评论 -
MapReduce原理解析
划分方法-最基本的海量技术思想传统Hash,最基本的划分方法将大数据、流量均分到N台服务器,找到合理的key,hash(key)尽量分布均匀,如hash(key) mod N == 0则将其分到第0台服务器 随机划分一致性Hash:支持动态增长,更高级的划分方法一致性hash:考虑到分布式系统每个节点都有可能失效,并且新的节点很可能动态的增加进来,如何保证当系...原创 2019-05-15 17:55:09 · 752 阅读 · 0 评论 -
Scala安装
集群环境节点 IP master 192.168.63.xx slave1 192.168.63.xx slave2 192.168.63.xx Scala安装master1. 下载scala包链接:https://downloads.lightbend.com/scala/2.11.4/scala-2.1...原创 2019-04-23 19:05:38 · 178 阅读 · 0 评论 -
ZooKeeper安装
master1.下载源码包https://archive.apache.org/dist/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz[root@master src]# wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.11/zookeeper-3.4.1...原创 2019-04-23 18:40:41 · 163 阅读 · 0 评论 -
hadoop集群搭建(超详细版)
1.准备好需要安装的软件虚拟机VMware12.pro操作系统CentOS 6.5远程控制虚拟机的终端SecureCRT8.12.在虚拟机中安装CentOS操作系统安装好虚拟机,图形界面如下图创建新的虚拟机,选择自定义(高级),点击下一步虚拟机硬件兼容性默认,浏览需要安装的CentOS6.5镜像文件自定义用户名和密码(用于登录)设置虚...原创 2018-05-03 12:09:13 · 106862 阅读 · 60 评论 -
分布式计算框架Spark
一、spark三种模式本地模式./bin/run-example SparkPi 10 --master local[2]集群模式 spark standalone(spark独立集群模式)./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 ...原创 2019-08-27 21:18:48 · 386 阅读 · 0 评论