大数据
文章平均质量分 73
bluetropic
这个作者很懒,什么都没留下…
展开
-
大数据处理的几个问题(阅读笔记)
http://jjckb.xinhuanet.com/2013-05/31/content_448080.htm 一、信息采集不足牛津大学统计学教授彼得·多纳利对记者说,目前大数据技术的第一个瓶颈就是信息采集不足。由于各种主观意愿原因、客观技术原因,大数据的获得和采集存在不足。有的人不愿意共享敏感数据,有的人无法提供,有的大数据目前还没有有效的采集技术等等。我们意识到了大数据的原创 2013-06-05 08:58:31 · 945 阅读 · 0 评论 -
Spark独立部署模式
Spark独立部署模式原文连接:http://spark-project.org/docs/latest/spark-standalone.html翻译的水平有限,欢迎批评指正,转载请注明出处。除了部署在Mesos之上, Spark也支持独立部署模式, 包括一个Spark master进程和多个 Spark worker进程. 独立部署模式可以运行在单机上作为测翻译 2013-07-22 16:35:01 · 8152 阅读 · 0 评论 -
如何在集群上运行Shark
如何在集群上运行Shark本文介绍在计算机集群上如何启动和运行Shark。如果对Amazon EC2上运行Shark感兴趣,请点击这里查看如何使用EC2脚本快速启动预先配置好的集群。依赖:注意:Shark是一个即插即用的工具,所以可以在现有的Hive数据仓库之上运行,不需要您对现有的部署做出任何修改。在集群上运行Shark需要一下几个外部组件:Scala 2.9.3Spar翻译 2013-07-21 22:03:02 · 2768 阅读 · 1 评论 -
Hadoop学习——HDFS数据备份与放置策略
hadoopHDFS数据备份放置策略目录(?)[+]对于分布式文件系统来说,为了保证数据的高可用性和系统容错能力,往往会把同一数据块在多个节点上进行备份,那么如何分配这些复制数据的位置,不同的文件系统会有不同的策略。一、业界分析在介绍HDFS之前,先简单了解一些其它文件系统的放置策略:1. Lustre——一致性哈希环对于不同的数据备份,需要放到不同的节点上面,一种转载 2013-07-26 14:45:41 · 1801 阅读 · 0 评论 -
Hadoop集群监测工具——ganglia安装实例
目录(?)[+]Ganglia是一个用于集群性能监测的工具,为了说明其使用方法,本文结合Hadoop集群环境讲解ganglia的安装过程,希望能给感兴趣的朋友提供参考帮助。测试环境Ubuntu 12.04 LTSHadoop 0.20.2ganglia 3.1.7主要概念数据监测节点(gmond):这个部件装在需要监测的节点上,用于收集本节点的运行情况,并将这些统计转载 2013-07-26 14:49:59 · 913 阅读 · 0 评论 -
Spark随谈(一)—— 总体架构
http://www.16kan.com/post/113877.htmlSpark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。Spark之依赖(1)Map Reduce模型作为一个分布式计算框架,Spark采用了MapReduce模型。在它身上,Goo转载 2013-07-27 11:22:56 · 1305 阅读 · 0 评论 -
On-Disk还是In-Memory:两种数据库对比
http://club.techtarget.com.cn/space/viewspacepost.aspx?postid=5827我们所知道的最普遍的传统数据库包括Oracle和MySQL等,如果按照数据存储的介质,我们可以把它们称为硬盘数据库,因为数据是存放在外部存储介质当中的。相对应,还有一种数据库我们可以称它为内存数据库,即In-Memory Database,简称IMDB(同某知名被转载 2013-07-28 00:11:40 · 2595 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
TechTarget中国原创内容,原文链接:http://www.searchcloudcomputing.com.cn/showcontent_67013.htm导读:Hadoop工具因大数据的火热而流行起来,但你是否真的已经掌握的Hadoop的使用技能,本文基于Cloudera CDH 3u4编写的,提供了一些关于Hadoop的管理方法。关键词:Hadoop Hadoop集群 Hado转载 2013-07-27 23:43:30 · 805 阅读 · 0 评论 -
hadoop 创建用户及hdfs权限,hdfs操作等常用shell命令
原文:http://blog.csdn.net/larrylgq/article/details/7580488sudo addgroup hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) A转载 2013-08-19 11:48:01 · 3726 阅读 · 0 评论 -
hadoop安装调试错误总结(1)
新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助。一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespaceID=转载 2013-08-21 10:46:39 · 1076 阅读 · 0 评论 -
人工智能:EMC GP发布Pivotal HD和HAWG详解
独家供稿:移动Labs 美国时间的今天,也就是2013年2月27日,三年前被EMC收购的GreenPlum公司拿出了他们在2013年的重大动作,发布了Pivotal HD,这是一个Hadoop协议栈。与之前OEM的MapR的Hadoop协议栈不一样,这个新的协议栈是GreenPlum自己研发的,主要的目的就是支撑其上被称为HAWG的技术。 发布会演讲可以在这转载 2013-09-15 23:59:38 · 2308 阅读 · 0 评论 -
分析和优化云集群性能
使用可配置参数监视和调优 Hadoop 集群的性能Yu Li, 软件工程师, IBMYu Li 是一位中国软件工程师。他是 IBM InfoSphere BigInsight 团队的成员,这个团队的任务是在 Apache Hadoop 上构建分析平台。他的专业领域包括云计算、性能调优、数据挖掘、数据库技术和中间件技术。简介: Hadoop 是一个可以分布式操纵大量数据的转载 2013-10-30 21:06:12 · 854 阅读 · 0 评论 -
Hadoop集群的体系结构和方法
原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群,那转载 2013-07-30 11:47:20 · 1564 阅读 · 0 评论 -
基于Ubuntu12.04+hadoop1.2.0 的hadoop集群搭建
Ubuntu12.04搭建hadoop1.2集群中国人民大学 信息学院 董兆安 2013年7月(一) 环境准备首先准备5台电脑。我这里使用的是OpenStack虚拟出来的五台电脑。每个实例安装的系统是Ubuntu 12.04.2 LTS,虚拟配置如下:(二) 修改机器名打开/etc/hostname文件;sudo vi/etc/hostn原创 2013-07-15 19:45:07 · 1568 阅读 · 0 评论 -
大数据量,海量数据处理方法总结
大数据量,海量数据处理方法总结来源:葛林华的日志大数据量的问题是很多面试笔试中经常出现的问题,比如baidu、google、腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优转载 2013-06-05 17:12:45 · 755 阅读 · 0 评论 -
2012年-NoSQL 数据建模技术
(转载出处 酷壳 – CoolShell.cn ,请勿用于任何商业用途)全文译自墙外文章“NoSQL Data Modeling Techniques”,译得不好,还请见谅。这篇文章看完之后,你可能会对NoSQL的数据结构会有些感觉。我的感觉是,关系型数据库想把一致性,完整性,索引,CRUD都干好,NoSQL只干某一种事,但是牺牲了很多别的东西。总体来说,我觉得NoSQL更适合做Cache。下转载 2013-07-07 15:34:32 · 1057 阅读 · 0 评论 -
2011年-RDBMS到列族的数据储存方式变迁
如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。传统关系型数据库(mysql,oracle)数据存储方式主要如下:图一上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引的效果。转载 2013-07-07 15:30:08 · 783 阅读 · 0 评论 -
Hadoop and Sort Benchmark
Sort Benchmark是一个专门从事排序基准评估的非盈利机构,该机构每年都会举办一次排序基准评估比赛,很多公司和学术机构都会带着他们最新的研究成果来参加这个比赛,以评估他们的研究成果。在2007之前,该机构的排序基准评估比赛的主办和管理主要都是由Jim Gray来负责,他是数据库界的超级牛人、1998年图灵奖获得者。但不幸的是,JimGray在2007年1月28日早上独自乘船离开San转载 2013-07-09 21:24:00 · 1920 阅读 · 0 评论 -
萨师煊大数据研究中心第二届"大数据视点"研讨会
“Big Data Perspectives” Workshop 会议名称:萨师煊大数据研究中心第二届"大数据视点"研讨会会议地点:中国人民大学逸夫第一报告厅会议时间:2013年7月8日Program 9:00am-9:30am: Opening speech, Prof. Xiaoyong Du, Prof. Xiaofang Zhou, and Prof. Ji-R原创 2013-07-09 09:58:10 · 1486 阅读 · 0 评论 -
Ubuntu12.04+hadoop-1.1.2运行wordcount示例
HADOOP自己带有一些实例,比如wordcount实例实现统计单词在文本文件中的出现次数。下面是实验过程: 下面的命令,都直接是hadoop/bin里的命令,如果在/etc/profile里设置过PATH和CLASSPATH属性了,就可以和我一样省略掉命令路径前缀。 第一步:创建一个目录,作为数据输入源目录。命令行输入:mkdir input 第二步:在in原创 2013-05-30 11:38:07 · 1311 阅读 · 0 评论 -
hadoop集群的安全模式
hadoop集群的安全模式 NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了元数据记录的blo转载 2013-07-16 16:25:28 · 1066 阅读 · 0 评论 -
hadoop 日志分析程序
实战2——Hadoop的日志分析1). 日志格式分析首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: 2013-03-06 15:23:48,132 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:/**转载 2013-07-19 09:22:10 · 1852 阅读 · 0 评论 -
hadoop命令详解
hadoop命令详解一、用户命令1、archive命令(1).什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文转载 2013-07-19 09:25:20 · 805 阅读 · 0 评论 -
chukwa介绍
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。概述 chukwa 的官方网站是这样描述自己的: chukwa 是转载 2013-07-19 17:57:28 · 1780 阅读 · 0 评论 -
大数据大会的一点感受
非常幸运的抓住了一次参加2013年大数据技术大会和学术大会的机会。除了技术之外,在经验和阅历上确实对个人提升起到了很大的作用。不得不说,作为一个学生来讲,能够参加这样的大会还是非常受益的。留点文字记忆,以后可能再回顾一下。第一个感觉:搞大数据的人越来越多,而且是年轻人为主。这里所谓的年轻人就是30岁上下。可见,IT的确是口青春饭。技术大会在12月5日举行。世纪金源大酒店的大厅本来是东西两个原创 2013-12-10 15:43:58 · 1734 阅读 · 2 评论