![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
卜大伟
自由自在
展开
-
kafka实战
1. kafka介绍 1.1. 主要功能根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1:It lets you publish and subscribe to streams of records.发布和订阅消息流,这个功能类似于消息队列,这也是kafka归类为消息队列框架的原因 2:It lets you store stre...转载 2018-02-08 23:26:19 · 491 阅读 · 0 评论 -
kafka与zookeeper间的关联
kafka与zookeeper: 一个典型的Kafka集群中包含若干Produce,若干broker(一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到b...转载 2019-02-24 20:02:08 · 850 阅读 · 0 评论 -
IDEA远程调试Spark
1.前言本文讲述如何使用IDEA远程调试spark,这里所说的调试spark包括:调试spark应用程序,也就是使用spark算子编写的driver application spark自身,包括master,worker,所以这个主要针对的是standalone模式下的,使用yarn提交时不存在master和worker这两个角色。在开始之前会介绍一下如何使用idea远程debug普通...转载 2019-02-06 18:46:58 · 1471 阅读 · 0 评论 -
Spark运行原理
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源(cpu、内存等)2、Cluster manager分配应用程序执行需要的资源,在Worker节点上创建Executor3、SparkContext...转载 2018-10-09 09:12:08 · 184 阅读 · 0 评论 -
docker与openstack的关系
最近Docker和OpenStack是在信息化基础设备虚拟化或云化方面最火的两个开源项目,他们有关系吗,下面来分析分析。先看看他们分别是什么,我尝试不用网上的高大上术语,而用大白话来解释一下他们,或者刺破他们。OpenStack:它由很多的组件组成,如果没接触过,基本上你会晕头转向。但是我们只要从它试图要解决的问题来看就不难理解它。它是管理服务器/网络/块存储的工具。关于块存储,简单的理解是把一堆...转载 2018-03-02 19:32:29 · 5943 阅读 · 0 评论 -
泛型TEKV区别以及class<T>
1. 先解释下泛型概念泛型是Java SE 1.5的新特性,泛型的本质是参数化类型,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口、泛型方法。Java语言引入泛型的好处是安全简单。在Java SE 1.5之前,没有泛型的情况的下,通过对类型Object的引用来实现参数的“任意化”,“任意化”带来的缺点是要做显式的强制类型转换,而这种转...转载 2018-03-02 15:40:24 · 961 阅读 · 0 评论 -
利用MapReduce对HBase数据进行统计分析
1、HBase作为一种kv数据库,能够很好的面对高吞吐率的在线数据读写服务,尤其是写操作,但是在非rowkey多条件查询、数据分析、统计等场景下,HBase表现的就不是很好了,这些场景下就比较适合来用MapReduce来计算。2、应用场景假设有一张HBase表article,它有一列是数据来源source,现在需要统计不同来源的文章数量(数据行数),对于这样的简单统计需求,可以利用MapReduc...转载 2018-03-02 15:35:23 · 3601 阅读 · 0 评论 -
mysql数据导入kafka
将Mysql迁移到Hbase主要有三种方法:1、Put APIPut API可能是将数据快速导入HBase表的最直接的方法。但是在导入【大量数据】时不建议使用!但是可以作为简单数据迁移的选择,直接写个代码批量处理,开发简单、方便、可控强。2、MapReduce Job推荐使用sqoop,它的底层实现是mapreduce,数据并行导入的,这样无须自己开发代码,过滤条件通过query参数可以实现。Sq...转载 2018-03-02 15:32:26 · 5204 阅读 · 1 评论 -
HBase和HDFS数据互导程序
下面说说JAVA API 提供的这些类的功能和他们之间有什么样的联系。1.HBaseConfiguration关系:org.apache.hadoop.hbase.HBaseConfiguration作用:通过此类可以对HBase进行配置用法实例: Configuration config = HBaseConfiguration.create();说明: HBaseConfiguration.c...转载 2018-03-02 15:27:51 · 243 阅读 · 0 评论 -
mysql和hbase应用场景对比
当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量。并且如果面对大数据库,pt级别的数据,这种浪费更是严重的,那么我们该使用是什么数据库?hbase数个不错的选择,那么我们对于hbase还存在下列问题:1.Column Family代表什么?2.HBase通...转载 2018-03-02 15:07:36 · 27464 阅读 · 1 评论 -
聊聊Flume和Logstash的那些事儿
在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助。本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看《葵花宝典》第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→)。大数据的数据...转载 2018-02-28 03:02:27 · 502 阅读 · 0 评论 -
为什么选择scala而不用java开发spark
你可能会认为我根本无法对前面一小节那个畸形的函数给出个合理的解释。我开始学习函数式编程时就是这么认为的。不过我是错了。有很好的理由使用这种风格,当然其中一些属主观因素。例如,函数式程序被认为更容易阅读。因为连街上乱跑的娃娃都知道,是否容易理解是个见仁见智的判断,所以我将略去这些主观方面的理由。幸运的是,还有很多的客观理由。单元测试因为函数式编程的每一个符号都是 final 的,没有函数产生...转载 2019-02-25 01:35:07 · 2907 阅读 · 0 评论