2018年08月_j_ys

原创大数据-------storm集群搭建与任务处理

1.在网上下载storm稳定版本的安装包，导入集群里面的一台服务器上。 2.确定安装路径、解压。（在这一部分很简单，不做多余的说明） 3.修改Storm文件目录下的配置文件（conf文件里面的storm.yaml文件） Storm.yaml这个文件其实是一个空文件，我们可以直接添加如下信息（举例）： #zk所在集群对应的服务器地址（多个服务器要都写上去，不能漏掉，配置hosts的情况下格式...

2018-08-29 21:09:19 360

1.storm简介： Storm是Twitter公司开源贡献给Apache的一款实时流式计算框架，作用是用于解决数据的实时计算，以及实时处理等问题。它与hadoop的不同就是能够做到实时处理数据的能力，这里有一个hadoop离线项目的经典架构模式：ftp（获取）----hdfs（存储）-------hive（操作计算）--------mysql（最终结果存储）但是这种离线的架构分析数据模式，在数...

2018-08-29 16:59:27 280

原创大数据------kafka高级

1.深入学习kafka，我们要搭建一个kafka集群，配置好，运行起来，完成消息的发布与接收其实实现起来很简单，但是在kafka的底层是如何实现的，如何在大量消息中快速找到想要的消息，消息怎样才会在传递中不丢失，运行过程中会会经常遇到哪些比较棘手的问题接下来我们进入kafka高级的探入。 2.Kafka的结构组成以及详细解释： 2.1Producer：生产者，用于消息的生产，通过P...

2018-08-26 20:20:28 439

原创大数据-----Apache Kafka

1.Kafka是什么？它是一个分布式的消息队列，消息队列：生产者、消费者的功能。它提供了类似于JMS 的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。 2. Kafka的作用：这里我们简单来说，它的主要作用就是解耦（降低系统之间的耦合度）、异构（异步架构），与并行。如果不同子系统之间的依赖太高的情况下，如果发生一些变化就需要更改整个系统，甚至系统的整体架构也可能要发生变...

2018-08-23 21:35:23 232

原创大数据-----Hadoop High Availability

1.High Availability：简称HA，高可用。为了保证业务可用的持续性，一般会有两个或者两个以上的节点，活动节点（Active）以及备用节点（Standby），目的是当活动节点发生了问题不能工作的时候，备用节点会检测到并且代替活动节点来继续保持业务的进行。 Namenode（简称NN）就是HDFS集群的单点故障点，一个集群中在运行的NN只能有一个，但是如果这个NN挂掉了整个集群就不...

2018-08-21 10:49:07 723

原创大数据-----Hadoop Archives

1.Hadoop Archives：文件归档，是对HDFS的优化，我们在上传文件的时候会出现小文件（比如几kb的文件），这些小文件也会至少占用一个块（block），而每一个块的元数据在Namenode内存中都会被记录。当小文件过多的时候，就会给内存造成压力。Hadoop Archives功能就是给这些小文件归档成一个文件并可以在外部对这归档后的文件中的每一个小文件进行访问。 2.创建Arc...

2018-08-20 14:34:13 235

原创大数据---HDFS

1.HDFS：分布式文件存储系统，是用来进行文件存储的，简单的理解就是大数据领域的硬盘或者磁盘（但是还是有非常大的区别的，这个我们接下来进行解释）。 2.那么它和传统的存储方式有什么区别呢？首先，传统的方式保存数据就是我们平时用的上传到磁盘普通模式，但是我们站在大数据角度来看，如果我们的文件比较大（比如2T=2000G的文件），那么用这种方式就比较消耗时间，占用大量处理内存，而且...

2018-08-20 08:45:26 640

原创关于Hadoop与hadoop集群搭建应该注意的细节

1.Hadoop 说到大数据我们首先应该想到的就是hadoop，hadoop是由java语言编写的开源框架，它是一个处理大规模数据的平台，作用简单来说就是在大规模计算机服务器集群上对大量数据进行分布式的处理。对于一个大数据开发人员来说，hadoop是一直贯穿整个发开流程的。 Hadoop核心组件： HDFS：分布式文件系统，解决大规模数据存储问题。可以简单地理解为大数据领域的“硬...

2018-08-13 22:28:40 264

原创快速理解分布式与集群

1.分布式当并发提高的时候或者业务需求变大，现有的设备架构不足以满足我们的需求的时候可以采取分布式来解决这个问题。分布式简单来讲就是把硬件或者软件分布到不同的计算机上，彼此之间通过协议来通信。完成看似一台计算机的动作，因为是扩展到多台计算机提供服务，所以可以解决需求和高并发的问题。举一个例子：产品运行中，对于数据库的操作一直都是关键点，而数据库的读写操作的繁重程度又不一样，读压力...

2018-08-10 20:22:48 174

原创大数据------数据分析

1.数据分析可划分为：描述性数据分析、探索性数据分析、验证性数据分析。描述性数据分析属于初级数据分析，我们平时用到或者应用的主要就是这个层面，探索性分析属于高级数据分析，一般我们处理分析数据的时候，要求得到相关需求的结果，在可控范围内，而探索性分析更加注重于在处理分析数据的时候，得到一些新的结果，甚至有些时候的探索性分析从开始就没有去固化它的结果，而是要求这些结果的特征...

2018-08-10 19:43:56 977

原创大数据----浅谈数据

什么是数据？其实万物皆是数据，对于一个事物我们从各个方面都会有非常多的描述，对于这个事物无论是客观现实的描述，还是虚拟的逻辑描述，都体现这个事物的独有特点，就像有人曾经说过这个世界上没有两片同样相同的树叶，我们可以把这个说法换一种看法，没有两片一模一样的树叶，是不是也是说明了不同的树叶所携带的基因数据不同，从而影响了其外观，这里我们就可以理解这样一件事情，起因：数据的分歧不同，导致了影响了结果...

2018-08-07 22:18:37 278

原创关于Zookeeper

zookeeper是一个开源的小型的文件存储系统或者说框架，主要用于，当一个项目的需求增大，需要集群分布式来完成解决功能问题，主要的功能是监听其节点的变化与状态，保持数据的一致性是Zk的最重要的特征也是集群能够实现的重要保证，比如：我们搭建服务器集群的时候，就要求有虽然服务器不同但是完成的功能是相同的，就需要zk来展示不同服务器之间的数据一致性。在zk的作用下虽然服务器集群有很多服务器，但...

2018-08-07 20:56:54 212

jinyusheng_1991的博客