自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 logstash

何为logstash Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到您最喜欢的 “存储库” 中。(我们的存储库当然是 Elasticsearch。) 采集各种样式、大小和来源的数据 数据往往以各种各样的形式,或分散或集中地存在于很多系统中。 Logstash 支持 各种输入选择 ,可以在同一时间从众多常用来源捕捉事件。能够以连续的流式传输方式...

2019-04-03 11:32:45 127

原创 大数据专业名词

常用大数据技术名词通俗解释 Hadoop: 最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上无穷多的文件,因此称为大数据平台。 MapReduce: 在Hadoop存文件的基础上,MapReduce担任处理文件的角色,它读到文件,并把处理文件的任务分成很多子任务,让它们在多台机器...

2018-12-19 15:13:50 1162

原创 大数据面试总结

Hbase的特性以及你怎么设计rowkey和columnFamily ,怎么去建一个table? 因为hbase是列式数据库,列非表schema的一部分,所以在设计初期只需要考虑rowkey 和 columnFamily即可,rowkey有位置相关性,所以如果数据是练习查询的,最好对同类数据加一个前缀,而每个columnFamily实际上在底层是一个文件,那么文件越小,查询越快,所以经常一起查询的...

2018-12-19 15:09:42 234

原创 Flume

flume是一个数据采集工具。他呢有两种形式:flume-ng和flume-og两种形式。flume-og采用的是master结构,为了保证数据一致性我们采用了zookeeper进行管理。而flume-ng采用了取消集中master机制和zookeeper机制,变成了一个纯粹的传输工具。 Flume结构:主要以agent为基本单位。包括source(接收外部数据)channel(传输通道)sink...

2018-12-19 15:00:02 310

原创 Spark常见问题

Spark中常见问题 Spark中的闭包 闭包则是在driver端声明 excutor端引用 闭包一定经过序列化 在函数内部引用了外部一个变量 会发现以下问题: ![在这里插入图片描述](https://img-blog.csdnimg.cn/20181026172745500.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,s...

2018-10-26 17:39:11 185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除