- 博客(7)
- 资源 (40)
- 问答 (1)
- 收藏
- 关注
原创 Hadoop核心组件之HDFS
Namenode和Datanode的关系Namenode 维护树状目录结构(NameSpace) 分配并记录每个文件由哪些块组成,以及每个块的信息(大小、时间戳等) 将HDFS的文件和目录元数据存储在一个叫fsimage的文件中, 每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记 录在editlog文件中 被动接受DataNode的HeartBeat,记录Da
2016-03-20 10:56:01 2558
原创 Drools KIE API
在搭建Drools开发环境中我们接触了几个Drools的API,例如: KieServices KieContainer KieSession 还有kmodule.xml文件中的几个选项: kmodule kbase ksession 那么这些东西都是什么概念呢Kie是什么KIE是jBoss里面一些相关项目的统称,例如jB
2016-03-29 17:04:29 12441 1
原创 搭建Drools开发环境
篇幅中使用的Drools版本为6.3.0.Final,和5.x版本的API有较大区别,请留意 开发工具的设置开发工具为Intellij IDEA,网上逛了很久都没有发现一个使用IDEA开发drools的说明 只找到了一个IDEA的设置文件,导入该文件后新建.drl文件的话会有drools规则语法的智能提示 下载地址开发流程mavenIDEA可以直接创建drools类型的项目,但是无法和mav
2016-03-28 20:41:00 20363 5
原创 MapReduce性能调优记录
MapReduce原理要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。 Map-Reduce运行原理图: Map Side1.从磁盘读取数据并分片默认每个block对应一个分片,一个map task2.进行map处理运行自定义的map业务过程3.输出数据到缓冲区中map输出的数据并不是直接写入磁盘的,而是会先存储在一个预定义的buffer中4、分区、
2016-03-18 13:54:22 14065
原创 MapReduce开发技巧
数据类型的选择自定义数据类型参考:Hadoop提交作业自定义排序和分组MapWritable/SortedMapWritableHadoop中可传输的Map集合,和Java中的Map用法差不多,但是可以用与mapper和reducer之间的数据传输Map输出不同类型的Value使用自定义的数据类型继承自GenericWritable可以实现在mapper中输出多个不同类型的value//使用这个数据
2016-03-18 13:53:18 952
原创 大数据平台生产环境部署指南
总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下: 服务器数量:6 操作系统:Centos7 Master节点数:2 Zookeeper节点数:3 Slave节点数:4 划分各个机器的角色如下: 主机名 角色 运行进程 hadoop1 Master
2016-03-18 13:44:04 8602 3
原创 自定义分片策略解决大量小文件问题
自定义分片策略解决大量小文件问题@(Hadoop)默认的TextInputFormat应该都知道默认的TextInputFormat是一行行的读取文件内容,这对于一个或几个超大型的文件来说并没有什么问题,但是在实验读取大量小文件的时候,性能及其低下。实验过程分别有5个文件夹,每个文件夹下有不同数量(1-2千个)的小文件(10+k大小),总量大概有8k+个文件,使用CLI命令上传到HDFS就花费了一个
2016-03-01 11:41:25 4227 10
tachyon-0.6.4-bin.tar.gz
2015-05-29
在spark streaming中实时更新mllib的ALS算法的模型遇到的问题!
2015-06-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人