murphyZ-CSDN博客

原创一、 Kafka知识点梳理

1、配置文件梳理2、kafka文件存储机制##2-1、kafka文件存储基本结构1）、在Kafka文件存储中，同一个topic下有多个不同partition，每个partition为一个分区，partiton命名规则为topic名称+有序序号，第一个partiton序号从0开始，序号最大值为partitions数量减1。2）、每个partion(分区)相当于一个巨型文件被平均分配到多个大...

2020-06-18 11:31:49 415

原创 zookeeper集群的配置

1、集群安装官网：http://zookeeper.apache.org/ 下载地址：http://apache.opencas.org/zookeeper/ 从官方网站上下载tar.gz包，我们这里使用的是：zookeeper-3.4.7.tar.gz 主机名(hostname) 安装软件运行进程 ...

2019-03-20 09:59:45 238

原创 ZooKeeper

什么是zookeeperZookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）Zookeeper集群的角色： Leader 和 follower （Observer）zookeeper在底层最核心的两个功能：管理(存储...

2019-03-20 09:23:20 250

原创 ES优化

ElasticSearch生产集群配置优化集群主机（节点）配置相近集群中主机最好配置相近，集群的性能符合木桶定律，即集群的查询性能是由集群中性能最差的主机决定的。建议使用SSD硬盘替换传统的机械硬盘ES对IO的性能要求比较高。ES内存配置不要超过32G指定的堆内存可以是节点总内存的一半。https://www.elastic.co/guide/en/elasticsearch/gui...

2019-03-19 14:49:40 815

原创 Logstash安装

https://www.elastic.co/guide/en/logstash/current/index.html首先下载logstash，上传到服务器logstash是用JRuby语言开发的，所以要安装JDK解压：tar -zxvf logstash-2.3.1.tar.gz -C /bigdata/启动：6种启动方式bin/logstash -e ‘input { stdin ...

2019-03-19 14:41:14 187

原创 ElasticSearch安装和使用

一、ES的安装https://blog.csdn.net/murphyZ/article/details/88661737二、ES的使用https://blog.csdn.net/murphyZ/article/details/88661812

2019-03-19 14:37:00 135

原创 ES的使用

#es安装插件下载es插件/bigdata/elasticsearch-2.3.1/bin/plugin install mobz/elasticsearch-head#本地方式安装head插件./plugin install file:///home/bigdata/elasticsearch-head-master.zip#访问head管理页面http://node01:9200/_...

2019-03-19 14:35:49 238

原创 ES的安装

###【在多台机器上执行下面的命令】####es启动时需要使用非root用户，所以创建一个bigdata用户：useradd murphy#为bigdata用户添加密码：echo 123456 | passwd --stdin murphy#将murphy添加到sudoersecho “murphy ALL = (root) NOPASSWD:ALL” | tee /etc/sudoe...

2019-03-19 14:33:45 748

原创 HDFS工作机制概述

HDFS架构HDFS集群分为两大角色(进程)：NameNode、DataNode集群中主机分别放置在不同的机架中；NameNode 负责管理整个文件系统的元数据；DataNode 负责管理用户的文件数据块block；文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上；每一个文件块可以有多个副本，并存放在不同的datanode上；Datano...

2019-03-18 21:03:28 473

原创 HDFS Shell

客户端命令操作hdfs dfsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-c...

2019-03-18 20:28:26 202

原创 Hadoop集群环境搭建（虚拟机模拟集群）

一、Hadoop集群规划主机名：映射配置之后 Hadoop软件版本运行进程 node01 原生hadoop-2.7.2 nameNode、resourceManager、secondary namenode no...

2019-03-15 15:39:16 538

原创 Hadoop重点组件

HDFS：分布式文件系统MAPREDUCE：分布式运算程序开发框架HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具HBASE：基于HADOOP的分布式海量数据库ZOOKEEPER：分布式协调服务基础组件Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库Oozie：工作流调度框架Sqoop：数据导入导出工具Flume：日志...

2019-03-15 11:40:23 144

原创分布式系统概述以及常用分布式软件系统举例

一、分布式系统概述分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器，处理更多的数据。二、常用分布式软件系统举例Web服务器集群单台服务器的性能和资源都是有限的，支持的连接并发数都有上限，因此必须采用多服务器集群的方法才能提高连接并发数。连接并发数的...

2019-03-15 11:38:34 4999

原创 Hive性能优化

为了高效的使用Hive，需要对Hive进行性能优化。Hive常用性能优化方法如下1、Hive的本地模式需要处理的数据量不大，可以使用Hive的本地模式，该模式比Hadoop的集群模式运行速度要快，启用Hive本地模式的命令如下。set hive.exec.mode.local.auto=true; //默认为falseset hive.exec.mode.local.auto.inpu...

2019-03-12 19:05:11 390

原创安装虚拟机,Linux操作系统,配置虚拟网络较全说明

安装虚拟机:直接安装,增强驱动那个选上,最后激活即可1.若以前安装过,安装之后Windows网络适配器中没有出现虚拟机的两个网络那么我的解决办法是卸载虚拟机,删除虚拟机文件夹,然后下载CCleaner软件用于删除计算机里的无效文件和注册表等.重新安装即可2.配置虚拟网络需要注意网络的连接模式,桥接的需要自己设置DHCP中的内容(包括其实结束ip地址,子网掩码,子网IP等),NAT连接的i...

2019-03-11 16:14:48 151

原创 Linux系统------安装mysql

说明：若hadoop集群内没有安装mysql和hive，则需要按照如下文档安装mysql与Hive。1.方式：离线安装2.安装所在机器：安装在Hadoop集群内外均可，只要Hive软件能够连接到Mysql即可。3.解压根据当前操作系统版本解压缩mysql全量包：bundle：捆绑包，直接解压即可centos7：# tar -xvf mysql-5.7.21-1.el7.x86_64.rp...

2019-03-11 14:33:46 164

原创 Linux系统下完全卸载使用RPM安装的mysql的步骤总结

1.查看mysql安装情况rpm -qa | grep -i mysqlMySQL-client-5.6.26-1.linux_glibc2.5.x86_64MySQL-server-5.6.26-1.linux_glibc2.5.x86_642.移除之前安装的mysql软件包[root@node1 ~]# rpm -ev MySQL-client-5.6.26-1.linux_glib...

2019-03-11 12:50:28 507

对于一个具有相当技术门槛与复杂度的平台，Spark从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009年，Spark诞生于伯克利大学AMPLab，最开初属于伯克利大学的研究性项目。它于2010年正式开源，并于2013年成为了Aparch基金项目，并于2014年成为Aparch基金的顶级项目，整个过程不到五年时间。下面点滴记录 Spark 的版本发展过程。now2018-02-2...

2019-03-11 10:53:55 1124

原创 Hbase热点问题以及避免热点问题的办法

1、热点现象检索habse的记录首先要通过row key来定位数据行,当大量的client访问hbase集群的一个或少数几个节点，造成少数region server的读/写请求过多、负载过大，而其他region server负载却很小，就造成了“热点”现象.大量访问会使热点region所在的单个主机负载过大，引起性能下降甚至region不可用。2、产生原因有大量连续编号的row key ...

2019-03-09 11:10:42 1881

原创 Hbase的存储机制和寻址机制

1、Hbase中存在一个叫做列簇的概念，一个列簇下面保存多个列,所谓的列簇指的就是一组列2、Hbase中没有主键的概念，但是存在行键的概念（rowkey）,可以把行键理解为主键，一条记录的唯一标识3、版本：version 用于标识更新的数据，也可以作为数据的检索项4、最小的存储单元cell单元格5、在进行检索数据的时候，可以通过以下方式进行单元格数据的唯一确定6、cell单元格格...

2019-03-08 15:11:44 546

原创 Hbase的架构和Hbase的关键字

Hbase的架构组件包括：client、zookeeper、hmasterhregionserver、hlog、hregion、store、memstore、storefile、hfileclient：hbase的客户端，包含访问hbase的接口（shell、java api）client维护着一些cache来加快对hbase的访问，比如region的位置信息zookeepe...

2019-03-08 14:56:38 879

原创 Hbase笔记

nosql：hbase、redis、mongodb、RDBMS：mysql oracle sqlserver db2 access excel 等为什么有hbase？随着数据量越来越大，传统的关系型数据库不能满足需求。hive虽然能够满足存储的要求，但是不能满足非结构的、半结构化的数据的存储。和高效查询。hbase是什么？hbase是一个开源的、分布式的、多版本的、可扩展的非关系型数...

2019-03-08 13:10:54 180

原创 hbase安装与基础使用

hbase的安装1、standalone2、Pseudo-Distributed Local Install3、Advanced - Fully Distributedgp181602 192.168.137.112 zk hregionserver hmastergp181603 192.168.137.113 zk hregionserver hmaster_backupgp181...

2019-03-08 13:09:51 157

原创七、算子间的区别

算子间的区别map和mapPartitions的区别:map是处理RDD里的每个元素,mapPartitions适用于处理RDD的每个分区的map和foreach的区别:1.map是有返回值的,foreach没有返回值2.map常用于将某个RDD做元素的处理,而foreach常用于作为结果的输出到其它的存储系统中3.map是属于transformation,foreach属于actio...

2019-03-08 10:30:09 197

原创 Checkpoint检查点

checkpoint检查点1)、checkpoint的应用场景:在应用程序的执行过程中,有时候某些RDD的数据需要在其它地方多次用到(包括其它job中用到),为了使得整个依赖链条,不至于很长导致执行缓慢,可以用checkpoint来缩短依赖链条.最好把数据checkpoint到HDFS,保证了数据的安全性,便于在用数据的时候进行拉取.执行过程:在代码层面是这样执行的,如果用到某个RDD...

2019-03-08 09:33:52 731

原创 Hive文档

一、Hive产生背景Apache Hive 数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。由Facebook开源，最初用于解决海量结构化的日志数据统计问题MapReduce编程的不便性HDFS上的文件缺少Schema（字段名，字段类型等）。二、hive的来源...

2019-03-07 22:36:04 860

原创 Hive特性--Hive1.x版本基于MR编程框架(Hive2.x之后是基于内存的，不再基于MR)

hive任务转换为mapreduce:转换过程描述：1、通过客户端或者UI界面执行HQL语句给Driver2、Driver会为查询操作创建一个Session Handler，并将查询操作传递给Compiler去创建Execute Plan3、Compiler根据任务去MetaStore查询hive元数据信息4、Compiler得到元数据信息，对task进行编译，将HQL转换为抽象语法树...

2019-03-07 14:35:39 485

原创 Redis安装及单机集群搭建总结(多节点搭建集群和单机集群大同小异)

1、软件安装1.安装包是个压缩包 --&amp;amp;amp;gt;解压到 /home/redis_tar下命令如下： tar -zxvf ./../ -C /home/redis_tar2.安装c++环境 yum -y install gcc-c++（注：redis底层源码是c++）3.解压后需要源码编译进入到redis-3.0.0后执行make4.编译完后开始安装需要指定一个安装路径m...

2019-03-07 11:46:31 200

原创六、spark部署模式(资源调度模式)

1、资源调度模式1.1、local模式（本地）运行该模式非常简单，只需要把Spark的安装包解压后，改一些常用的配置即可使用，而不用启动Spark的Master、Worker守护进程( 只有采用集群的Standalone方式时，才需要这两个角色)，也不用启动Hadoop的各服务（除非要用到HDFS文件系统）。Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Sp...

2019-03-07 11:05:33 311

原创二、kafka消费模型---Receiver和Direct方式讲解

7.1、Receiver ApproachReceiver是使用Kafka的high level的consumer API来实现的。Receiver从Kafka中获取数据都是存储在Spark Executor内存中的，然后Spark Streaming启动的job会去处理那些数据然而这种方式很可能会丢失数据，如果要启用高可靠机制，让数据零丢失，就必须启动Spark Streaming预写日志机...

2019-03-06 20:21:59 1177

原创 spark streaming + kafka整合二（Direct Approach (No Receiver)）

7.2、Direct Approach (No Receiver)它会周期性的查询kafka，来获取每个topic + partition的最新offset，从而定义每一个batch的offset的范围。当处理数据的job启动时，就会使用kafka简单的消费者API来获取kafka指定offset的范围的数据。1)、它简化了并行读取：如果要读取多个partition，不需要创建多个输入DStr...

2019-03-06 20:13:46 284

原创五、kafka消息传递语义

1、分类：消息传递语义有：至少一次语义（at-least-once）、最多一次语义（at-most-once）、一次仅一次语义（exactly-once）。其中at-least-once和at-most-once如下图：2、详解exactly-once：1. 幂等写入（ idempotent writes）需要设置好唯一主键等，比如用redis、mysql再比如每次往一个目录...

2019-03-06 19:39:57 842

原创六、Spark Streaming消费数据反写Kafka

需求：1、flume将socket流数据采集到kafka2、streaming读取kafka的数据进行清洗3、将清洗后的数据再次放到kafka清洗后的结果数据为：houseid|gathertime|srcip:srcport|destip:destport|urlspark streaming消费数据反写Kafka代码:import java.utilimport java...

2019-03-06 17:30:14 628 1

原创三、Kafka Offset 管理

主要包括以下：（大方面）1、使用外部存储保存offset2、不保存offset1、使用外部存储保存offset包括Checkpoints、ZooKeeper、HBase 、Kafka、HDFS等模型展示：详细介绍：使用外部存储保存offset博文链接：https://blog.csdn.net/murphyZ/article/details/882414582、Kafka Off...

2019-03-06 17:22:36 516

原创 kafka管理offset方式之使用外部存储保存offset

1、Kafka Offset 管理–Checkpoint启用Spark Streaming的checkpoint是存储偏移量最简单的方法。流式checkpoint专门用于保存应用程序的状态，比如保存在HDFS上，在故障时能恢复。Spark Streaming的checkpoint无法跨越应用程序进行恢复。Spark 升级也将导致无法恢复。在关键生产应用，不建议使用spark检查点...

2019-03-06 17:21:52 2771

原创 saprk streaming + kafka整合一（Receiver -based Approach）

SparkStreaming之Kafka的Receiver和Direct方式讲解7.1、Receiver ApproachReceiver是使用Kafka的high level的consumer API来实现的。Receiver从Kafka中获取数据都是存储在Spark Executor内存中的，然后Spark Streaming启动的job会去处理那些数据然而这种方式很可能会丢失数据，如果...

2019-03-06 15:56:14 445

原创 spark几种不同版本的WordCount

代码：package com.murphy.streamingdemoimport org.apache.hadoop.hdfs.server.common.Storageimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.dstream.{DStream, ReceiverInput...

2019-03-06 11:27:14 576

原创四、Kafka使用中的常见问题(重要)

1、2、3、4、5、6、7、问题 1、如果想消费已经被消费过的数据，怎么去做？分析： Consumer底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个gr...

2019-03-06 10:15:27 521

原创七、kafka常用操作命令

1、依次在各节点上启动kafkanohup bin/kafka-server-start.sh config/server.properties &amp;2、Kafka常用操作命令 查看当前服务器中的所有topicbin/kafka-topics.sh --list --zookeeper node1:2181 创建topicbin/kafka-topics.sh --crea...

2019-03-06 09:21:42 230

原创 spark2.0版本之后的sparkSQL新特性

spark2.0之后的sparkSQL1、spark2.0以后，我们操作的sql的对象为DataSet，DataFrame只是DataSet[Row] (row是弱类型)DataSet有弱类型（untyped）和强类型（typed）2、SparkSession作为新版本的上下文，可以用在sql和streaming中，SparkSession把SQLContext和HiveContext整...

2019-03-05 23:56:53 759

空空如也

空空如也