bluetropic-CSDN博客

转载 Neo4j简介

残阳似血的博客

2014-11-01 14:30:26 1587

转载 hadoop2.0集群搭建详解

hadoop2.2.0集群搭建 PS：apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名

2014-04-05 10:51:07 979

翻译 sigmod2013论文笔记：CS2：A New Database Synopsis for Query Estimation

基于关联抽样的查询估计CS2：A New Database Synopsis for Query Estimation摘要本文提出了一种基于数据库统计汇总信息的关联抽要视图。对选择、连接查询提供快速、精确的结果集估计。与传统方法仅依赖于简单随机抽样的方法不同，这里的抽样选取那些保持连接相关性的元组，同时能够节约存储空间。提出了一种新的统计抽样方法——逆向抽样；设计了一种强大

2013-12-10 17:35:35 1242

翻译 ICDE2013论文翻译草稿：CPU and Cache Efficient Management of Memory-Resident Databases

翻译的草稿，暂时保存，还有很多错误和不理解的地方，以后再修改吧。CPU and Cache Efficient Management of Memory-Resident Databases内存数据库的CPU和缓存之高效管理摘要：内存数据库管理系统(MRDBMS)必须针对CPU周期和内存带宽两类资源进行优化。混合或部分分解存储模型(PDSM)的提出就是为优化内存带宽，以适

2013-12-10 17:32:48 1865

原创大数据大会的一点感受

非常幸运的抓住了一次参加2013年大数据技术大会和学术大会的机会。除了技术之外，在经验和阅历上确实对个人提升起到了很大的作用。不得不说，作为一个学生来讲，能够参加这样的大会还是非常受益的。留点文字记忆，以后可能再回顾一下。第一个感觉：搞大数据的人越来越多，而且是年轻人为主。这里所谓的年轻人就是30岁上下。可见，IT的确是口青春饭。技术大会在12月5日举行。世纪金源大酒店的大厅本来是东西两个

2013-12-10 15:43:58 1734 2

转载集群资源调度系统简介与galaxy资源调度系统简介

原文链接：http://www.alidata.org/archives/2439随着公司业务的飞速发展，集群规模的逐步扩大，各计算系统，存储系统，应用系统也随着业务的发展，一个接一个的被创造了出来。但集群规模扩大以后，却带来很多问题，如自动化部署，集群整体利用率偏低等问题也逐步的暴露出来。所以，迫切的需求一套集群资源调度系统来解决这些问题。各大互联网公司也相继搞出了一些系统，如omega

2013-11-06 08:56:26 1380

转载 CENTOS 的 ln 命令——软链接和硬链接

ln 这是linux中一个非常重要命令，请大家一定要熟悉。它的功能是为某一个文件在另外一个位置建立一个同不的链接，这个命令最常用的参数是-s,具体用法是：ln -s 源文件目标文件。当我们需要在不同的目录，用到相同的文件时，我们不需要在每一个需要的目录下都放一个必须相同的文件，我们只要在某个固定的目录，放上该文件，然后在其它的目录下用ln命令链接（link）它就可以，不必重复的占用磁盘

2013-11-05 16:16:38 9416

转载实例讲解虚拟机3种网络模式(桥接、nat、Host-only)

FROM:http://www.cnblogs.com/ggjucheng/archive/2012/08/19/2646007.html前言很多人安装虚拟机的时候，经常遇到不能上网的问题，而vmware有三种网络模式,对初学者来说也比较眼花聊乱，今天我就来基于虚拟机3种网络模式，帮大家普及下虚拟机上网的背景知识。(博文原创自http://www.cnblogs.com/ggjuc

2013-11-02 10:30:41 950

转载分析和优化云集群性能

使用可配置参数监视和调优 Hadoop 集群的性能Yu Li, 软件工程师, IBMYu Li 是一位中国软件工程师。他是 IBM InfoSphere BigInsight 团队的成员，这个团队的任务是在 Apache Hadoop 上构建分析平台。他的专业领域包括云计算、性能调优、数据挖掘、数据库技术和中间件技术。简介： Hadoop 是一个可以分布式操纵大量数据的

2013-10-30 21:06:12 854

转载 Linux中设置服务自启动的三种方式

有时候我们需要Linux系统在开机的时候自动加载某些脚本或系统服务主要用三种方式进行这一操作：ln -s 在/etc/rc.d/rc*.d目录中建立/etc/init.d/服务的软链接(*代表0～6七个运行级别之一）chkonfig 命令行运行级别设置ntsysv

2013-09-25 19:21:53 881

转载批量执行linux环境下的SCP命令

expect用于自动化地执行linux环境下的命令行交互任务，例如scp、ssh之类需要用户手动输入密码然后确认的任务。有了这个工具，定义在scp过程中可能遇到的情况，然后编写相应的处理语句，就可以自动地完成scp操作了在部署一个任务时，其中有一项必须的过程就是将一些文件，如安装包发送到大量的服务器上去。虽然已有宇哥的脚本可用：通过paramiko模块提供的ssh和scp功能编写的python

2013-09-24 10:10:30 3353

原创 CentOS 常见问题积累

解决linux的-bash: ./xx.sh: Permission denied在linux下执行sh文件时提示下面信息：-bash: ./xx.sh: Permission denied解决：chmod 777 xx.shsh脚本异常：/bin/sh^M:bad interpreter: No such file or directory

2013-09-24 08:50:40 819

转载 Centos6.4环境下DNS服务器的搭建

1.在bind的主配置文件中添加该域2.在/var/named中创建该域的zone文件3.编辑zone文件，添加需要的信息4.检测防火墙或selinux设置5.启动bind服务6.使用host或nslookup命令检测域信息是否正常工具/原料安装了Centos6.4系统的电

2013-09-21 21:25:29 1552

转载 CentOS网络配置解决方案

文章来源：http://blog.csdn.net/heyabo/article/details/8035927关于centos网络配置的方法，网上文档很多，但基本上都是一些操作命令，原理和解释则很少提到，而且某些文章有些地方还是需要商量的（估计是转载的，作者自己也没有实践过）。故，重新总结一下，分三个部分：理论基础、上机实践和原因阐述。注：实践环境：虚拟机登陆方式

2013-09-21 17:20:15 763

转载人工智能：EMC GP发布Pivotal HD和HAWG详解

独家供稿：移动Labs 美国时间的今天，也就是2013年2月27日，三年前被EMC收购的GreenPlum公司拿出了他们在2013年的重大动作，发布了Pivotal HD，这是一个Hadoop协议栈。与之前OEM的MapR的Hadoop协议栈不一样，这个新的协议栈是GreenPlum自己研发的，主要的目的就是支撑其上被称为HAWG的技术。发布会演讲可以在这

2013-09-15 23:59:38 2308

转载 hadoop安装调试错误总结（2）

十二、如果遇到如下错误：FAILED java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:***就是URI里边出现了不允许出现的字符，比如冒号：之类的，操作系统不允许的文件命名字符。详细的可以根据提示的部分（星号部分）来进行grep匹配查看。消除

2013-08-21 10:48:05 1174

转载 hadoop安装调试错误总结（1）

新手搞hadoop最头疼各种各样的问题了，我把自己遇到的问题以及解决办法大致整理一下先，希望对你们有所帮助。一、hadoop集群在namenode格式化（bin/hadoop namenode -format）后重启集群会出现如下Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespaceID=

2013-08-21 10:46:39 1076

转载 hadoop 创建用户及hdfs权限，hdfs操作等常用shell命令

原文：http://blog.csdn.net/larrylgq/article/details/7580488sudo addgroup hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) A

2013-08-19 11:48:01 3727

转载分析和优化云集群性能

分析和优化云集群性能使用可配置参数监视和调优 Hadoop 集群的性能Yu Li, 软件工程师, IBMYu Li 是一位中国软件工程师。他是 IBM InfoSphere BigInsight 团队的成员，这个团队的任务是在 Apache Hadoop 上构建分析平台。他的专业领域包括云计算、性能调优、数据挖掘、数据库技术和中间件技术。简介： Hadoop 是一个可以分布式操纵

2013-08-15 14:58:07 860

转载 Hadoop集群的体系结构和方法

原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法，以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群，那

2013-07-30 11:47:20 1566

转载浅析PageRank算法

作者张洋 | 发布于 2012-07-02 http://blog.codinglabs.org/articles/intro-to-pagerank.html很早就对Google的PageRank算法很感兴趣，但一直没有深究，只有个轮廓性的概念。前几天趁团队outing的机会，在动车上看了一些相关的资料（PS：在动车上看看书真是一种享受），趁热打铁，将所看的东西整理

2013-07-29 16:00:31 997

转载 Linux 技巧：让进程在后台可靠运行的几种方法

原文作者：申毅，IBM 中国软件开发中心 WebSphere Portal 部门软件工程师。地址：http://www.ibm.com/developerworks/cn/linux/l-cn-nohup/ 我们经常会碰到这样的问题，用 telnet/ssh 登录了远程的 Linux 服务器，运行了一些耗时较长的任务，结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不

2013-07-28 16:28:18 700

转载 On-Disk还是In-Memory：两种数据库对比

http://club.techtarget.com.cn/space/viewspacepost.aspx?postid=5827我们所知道的最普遍的传统数据库包括Oracle和MySQL等，如果按照数据存储的介质，我们可以把它们称为硬盘数据库，因为数据是存放在外部存储介质当中的。相对应，还有一种数据库我们可以称它为内存数据库，即In-Memory Database，简称IMDB(同某知名被

2013-07-28 00:11:40 2597

转载 Hadoop管理员的十个最佳实践

TechTarget中国原创内容，原文链接：http://www.searchcloudcomputing.com.cn/showcontent_67013.htm导读：Hadoop工具因大数据的火热而流行起来，但你是否真的已经掌握的Hadoop的使用技能，本文基于Cloudera CDH 3u4编写的，提供了一些关于Hadoop的管理方法。关键词：Hadoop Hadoop集群 Hado

2013-07-27 23:43:30 806

转载 Spark随谈（一）—— 总体架构

http://www.16kan.com/post/113877.htmlSpark是一个小巧玲珑的项目，由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，充分体现了精简之美。Spark之依赖（1）Map Reduce模型作为一个分布式计算框架，Spark采用了MapReduce模型。在它身上，Goo

2013-07-27 11:22:56 1305

转载高手博客内容

空间 »博客 »Openstack列表模式：标题+预览 |标题+全文 |仅标题Openstack虚拟机实例备份方案测试分类: Openstack 统计: 0评/109阅/0顶 282013-04 Openstack api 使用方法分类: Openstack 统计: 0评/483阅/0顶 2

2013-07-26 20:25:23 755

转载 Hadoop集群监测工具——ganglia安装实例

目录(?)[+]Ganglia是一个用于集群性能监测的工具，为了说明其使用方法，本文结合Hadoop集群环境讲解ganglia的安装过程，希望能给感兴趣的朋友提供参考帮助。测试环境Ubuntu 12.04 LTSHadoop 0.20.2ganglia 3.1.7主要概念数据监测节点（gmond）：这个部件装在需要监测的节点上，用于收集本节点的运行情况，并将这些统计

2013-07-26 14:49:59 915

转载 Hadoop学习——HDFS数据备份与放置策略

hadoopHDFS数据备份放置策略目录(?)[+]对于分布式文件系统来说，为了保证数据的高可用性和系统容错能力，往往会把同一数据块在多个节点上进行备份，那么如何分配这些复制数据的位置，不同的文件系统会有不同的策略。一、业界分析在介绍HDFS之前，先简单了解一些其它文件系统的放置策略：1. Lustre——一致性哈希环对于不同的数据备份，需要放到不同的节点上面，一种

2013-07-26 14:45:41 1804

转载 Hadoop学习——HDFS系统架构

hadoopHDFS目录(?)[-]一业界调研GFSCephFhGFSGlusterFSLustre二HDFSHadoop的分布式文件系统HDFS主要是借鉴了Google发表的论文：The Google File System。该文件系统最大的优点是可以利用很多低配的计算机搭建高扩展和高容错性的分布式文件系统，另外，HDFS放宽了POSIX关于I/O的规定，因为

2013-07-26 14:44:48 1206

转载 ubuntu12.04集群安装Spark

原文地址：http://blog.csdn.net/yangning5850/article/details/9143151目录(?)[-]下载Spark下载Scala安装sbt编译Spark关于Hadoop版本Spark——Lightning-Fast Cluster Computing，这是Spark 官方logo的内容，让人很期待它的计算速度是否真的如此之快。

2013-07-26 14:38:00 1302

转载配置hadoop.tmp.dir 目录

感谢原有发帖人，内容来源：http://f.dataguru.cn/thread-23704-1-1.htmlHADOOP 配置HADDOP.TMP.DIR 注意先说说,场景,在开发环境中,由于意外断电.重新启动HADOOP MASTER 结点.启动HADOOP START-ALL.SHgrid$ start-all.sh 查看http:\\hdnode1m:50070\ 无法打开网页

2013-07-26 11:53:39 34719 1

转载启动Hadoop后发现datanode无法启动

感谢原有发帖人，内容来源：http://f.dataguru.cn/thread-24378-1-1.html***最近发现重启虚拟机后，启动Hadoop后发现datanode无法启动，查看日志报如下错误：ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible name

2013-07-26 11:46:49 3210

翻译 Spark独立部署模式

Spark独立部署模式原文连接：http://spark-project.org/docs/latest/spark-standalone.html翻译的水平有限，欢迎批评指正，转载请注明出处。除了部署在Mesos之上, Spark也支持独立部署模式, 包括一个Spark master进程和多个 Spark worker进程. 独立部署模式可以运行在单机上作为测

2013-07-22 16:35:01 8154

翻译如何在集群上运行Shark

如何在集群上运行Shark本文介绍在计算机集群上如何启动和运行Shark。如果对Amazon EC2上运行Shark感兴趣，请点击这里查看如何使用EC2脚本快速启动预先配置好的集群。依赖：注意：Shark是一个即插即用的工具，所以可以在现有的Hive数据仓库之上运行，不需要您对现有的部署做出任何修改。在集群上运行Shark需要一下几个外部组件：Scala 2.9.3Spar

2013-07-21 22:03:02 2768 1

转载 chukwa介绍

Apache 的开源项目 hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针对这个问题， Apache 同样提出了相应的解决方案，那就是 chukwa。概述 chukwa 的官方网站是这样描述自己的： chukwa 是

2013-07-19 17:57:28 1781

转载 hadoop命令详解

hadoop命令详解一、用户命令1、archive命令(1).什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文

2013-07-19 09:25:20 805

转载 hadoop 日志分析程序

实战2——Hadoop的日志分析1). 日志格式分析首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: 2013-03-06 15:23:48,132 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:/**

2013-07-19 09:22:10 1855

转载 OpenStack多节点部署

这是博主 @Ethan_熠森张将近一个月的劳动成果吧？有需要的人赶紧mark，同时不要忘记感谢博主OpenStack多节点部署（一）——服务器选型服务器的选型在类似于我们这样的非互联网类的传统公司也会成为一个很大的问题。以为之前并没有相关大规模服务器部署的经验，而且在采购等等环节受制于国企的一些制度和利益的影响，并不是能如意的选择到自己真正适合需要的机器。

2013-07-17 15:44:08 6355

转载 hadoop集群的安全模式

hadoop集群的安全模式 NameNode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例（1-dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的blo

2013-07-16 16:25:28 1067

原创基于Ubuntu12.04+hadoop1.2.0 的hadoop集群搭建

Ubuntu12.04搭建hadoop1.2集群中国人民大学信息学院董兆安 2013年7月(一) 环境准备首先准备5台电脑。我这里使用的是OpenStack虚拟出来的五台电脑。每个实例安装的系统是Ubuntu 12.04.2 LTS，虚拟配置如下：(二) 修改机器名打开/etc/hostname文件；sudo vi/etc/hostn

2013-07-15 19:45:07 1568