大数据
文章平均质量分 58
R先森
没有偶然的成功,只有必然的失败。
展开
-
Windows下Eclipse连接hadoop
hadoop在虚拟机上(远程连接也是一样只需要知道master的ip和core-site.xml配置即可。Vmware上搭建了hadoop分布式平台: 192.168.11.134 master192.168.11.135 slave1192.168.11.136 slave2 core-site.xml 配置文件:转载 2014-12-19 09:34:22 · 302 阅读 · 0 评论 -
mapreduce提高性能的七点建议
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没转载 2015-07-10 11:59:04 · 517 阅读 · 0 评论 -
各种序列化反序列化操作时间对比
https://code.google.com/p/thrift-protobuf-compare/wiki/Benchmarking各种序列化反序列化操作时间对比表,原创 2015-04-28 16:00:18 · 684 阅读 · 0 评论 -
Hadoop基于Protocol Buffer的RPC实现代码分析-Server端
最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers在邮件中这样说的“since PB can provide support for evolving protoco转载 2015-04-28 14:36:34 · 426 阅读 · 0 评论 -
hadoop问题汇总
1、mapreduce处理的大文件是在什么地方被分隔为一个一个小文件的?2、hdfs中冗余备份文件在集群节点之间传递的方式?3、mr过程中要做几次排序操作?4、hadoop api中的数据类型有哪些?BooleanWritable 标准布尔型数值ByteWritable 单字节数值DoubleWritable 双字节数值FloatWritable 浮点数IntWri原创 2015-03-24 17:19:19 · 383 阅读 · 0 评论 -
Hadoop分块原则
Hadoop是怎么分块的http://blog.chinaunix.net/space.php?uid=20602285&do=blog&cuid=2273160 hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由转载 2015-03-24 17:17:28 · 441 阅读 · 0 评论 -
大数据家族
大数据家族涉及哪些东西?hadoop家族:针对文本、社交媒体订阅以及视频等非结构化和半结构化的数据,包括分布是文件系统HDFS(GFS的一个开源实现),进行大数据处理的MapReduce架构。Nosql数据库:在大数据时代,传统的管系统结构化的数据库技术已经不能满足要求,在索引和高访问量的网站服务,在这些领域,Nosql数据库效率明显更好。内存分析:随着个人消费电子设备以及原创 2015-03-19 10:00:19 · 752 阅读 · 0 评论 -
开发mr程序必须的jar包(5个)
mr程序必要的jar包原创 2014-12-09 16:42:51 · 1458 阅读 · 0 评论 -
知乎上看到的一片关于大数据的问答
大数据(Big Data)大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化转载 2014-12-25 16:51:41 · 3052 阅读 · 0 评论 -
使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获转载 2014-12-25 16:19:29 · 452 阅读 · 0 评论 -
Hadoop初学者应该要注意的Hadoop核心知识
上篇(给Hadoop初学者的一些建议)我们介绍了新手学习hadoop的入门注意事项。这篇来谈谈hadoop核心知识学习。 hadoop核心知识学习: hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。那么下面我们以hadoop2.x为例进行详细介绍:Hadoop的核心是mapreduce和hdfs。转载 2016-11-14 18:02:47 · 330 阅读 · 0 评论