自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Flume安装

安装步骤• 1、对flume进行解压缩:tar -zxvf apache-flume-1.6.0-bin.tar.gz(下载地址:http://archive.apache.org/dist/flume/)• 2、对flume目录进行重命名:mv apache-flume-1.6.0-bin flume• 3、配置flume相关的环境变量1)vi ~/.bash_profile

2016-11-16 16:41:02 427

原创 Flume简介

Flume 是Cloudera 提供的日志收集系统,具有分布式、高可靠、高可用性等特点,对海量日志采集、聚合和传输,Flume 支持在日志系统中定制各类数据发送方,同时,Flume 提供对数据进行简单处理,并写到各种数据接受方的能力。Flume 使用java 编写,其需要运行在Java1.6 或更高版本之上。Flume 传输的数据的基本单位是Event,如果是文本文件,通常是一行记

2016-11-16 16:31:49 200

转载 AVRO

Avro是一个数据序列化的系统。功    能 丰富的数据结构类型简介它可以提供:1 丰富的数据结构类型2 快速可压缩的二进制数据形式3 存储持久数据的文件容器4 远程过程调用RPC5 简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码,而代码生成作为一种可选的优化只值得在静态类型语言中实现。Avro依赖于模式(Sche

2016-11-16 16:23:08 908

转载 Hadoop/Spark相关面试问题总结

Hadoop/Spark相关面试问题总结面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面)1、简答说一下Hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么,如何自定义实现3、hadoop和Spark的都是并行计算,那么他们有什么相同和区别4、为什么要用flume导入hdfs,hdfs

2016-11-14 22:10:55 756

转载 hive文件存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plain copy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING)  > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t

2016-11-14 22:05:01 314

转载 大数据性能调优之HBase的RowKey设计

1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowkey的二进

2016-11-10 16:22:30 332

转载 forward和redirect的区别

1.从地址栏显示来说 forward是服务器请求资源,服务器直接访问目标地址的URL,把那个URL的响应内容读取过来,然后把这些内容再发给浏览器.浏览器根本不知道服务器发送的内容从哪里来的,所以它的地址栏还是原来的地址.redirect是服务端根据逻辑,发送一个状态码,告诉浏览器重新去请求那个地址.所以地址栏显示的是新的URL.2.从数据共享来说 forward:转发页面和

2016-11-05 17:09:01 184

转载 hadoop中map和reduce的数量设置问题

map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交m

2016-11-03 16:20:36 300

原创 NoSQL

NoSQL,泛指非关系型的数据库NoSQL数据库的四大分类1.键值(Key-Value)存储数据库这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。Redis2.列存储数据库这部分数据库通常是用来应对分

2016-11-03 16:00:36 246

转载 hadoop关于block方面的相关总结【转】

1.如何修改hdfs块大小?2.修改之后,之前的block是否发生改变?1.修改hdfs块大小的方法在hdfs-site.xml文件中修改配置块大小的地方,dfs.block.size节点。重启集群后,重新上传文件到hadoop集群上,新增的文件会按照新的块大小存储,旧的不会改变。2.hadoop指定某个文件的blocksize,而不改变整个集群的blocksize

2016-11-03 15:59:12 380

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除