自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

笔尖的痕的专栏

don't be shy, just try!

  • 博客(21)
  • 资源 (13)
  • 收藏
  • 关注

转载 Hadoop中两表JOIN的处理方法

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自

2015-03-22 02:11:59 651

转载 MapReduce参数调优

1.设置合理solt数mapred.tasktracker.map.tasks.maximum 每个tasktracker可同时运行的最大map task数,默认值2。mapred.tasktracker.reduce.tasks.maximum每个tasktracker可同时运行的最大reduce task数,默认值1。2.配置磁盘

2015-03-21 18:00:21 1347

转载 Tachyon的安装、配置和使用

0. 前言在上一篇博文《Tachyon简介》中,我们简要地介绍了Tachyon,一个以内存为中心的分布式文件系统,及其一些基本工作原理。这一次,我们重点介绍如何在你自己的单机或集群环境下去安装、配置和使用Tachyon。具体地,会从怎样编译源码开始,到各项配置、命令的说明,再加上API的使用举例,让大家能够一步步地把Tachyon用起来。版本选择Tachyon目前的最新发布版为

2015-03-20 14:41:25 1508

转载 Uber模式参数(客户端配置)

Uber模式是Hadoop2.0中实现的一种针对MR小作业的优化机制。即如果作业足够小,则所有task在一个jvm(mrappmaster)中完成要比为每个task启动一个container更划算。下面是该机制的相关参数,这些参数均为客户端配置。 总开关mapreduce.job.ubertask.enable 默认值:falsemapreduce.job.uberta

2015-03-20 01:10:53 1577

转载 Yarn的JVM重用功能——uber

首先,简单回顾一下Hadoop 1.x中的JVM重用功能:用户可以通过更改配置,来指定TaskTracker在同一个JVM里面最多可以累积执行的Task的数量(默认是1)。这样的好处是减少JVM启动、退出的次数,从而达到提高任务执行效率的目的。 配置的方法也很简单:通过设置mapred-site.xml里面参数mapred.job.reuse.jvm.num.tasks的值。该值默认是1,意味

2015-03-20 01:03:40 2414

转载 NodeManager启用cgroup资源隔离(Hadoop2.3)

1、准备container-executor.cfg文件$ cat ${HADOOP_HOME}/etc/hadoop/container-executor.cfgyarn.nodemanager.linux-container-executor.group=users 注意:'users'来自$ groups 返回的第一个组从根目录到container-executor.cfg的us

2015-03-19 23:37:01 2443

转载 Spark作业代码(源码)IDE远程调试

我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码。  本文以调试Spark Application为例进行说明,本文用到的IDE

2015-03-19 02:58:56 969

转载 腾讯大规模Hadoop集群实践 [转程序员杂志]

TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每日作业数100多万,每

2015-03-19 02:53:01 720

转载 hadoop分布式平台优化

Hadoop性能调优不仅是自身的调优,还应包括底层硬件、操作系统等。下面逐一介绍:1、底层硬件Hadoop采用的是master/slave的架构,master(resourcemanager或namenode)要维护元数据信息、调度等,任务量及重要性远大于slave,因此尽量将master高配置。2、操作系统1)增大最大文件描述符的数量和网络连接上限(作用明显)

2015-03-19 02:33:24 802

转载 Hadoop平台优化综述

1.     概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1)     Namenode/jobtracker单点故障。 Hadoop采用的是

2015-03-19 02:29:52 832

转载 hadoop JOB的性能优化实践

使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括的方面很多:job设计,算法,数据结构,代码编写。

2015-03-19 02:21:59 1204

转载 操作系统级别对Hadoop性能优化

由于Hadoop自身的一些特点,它只适合用于将Linux作为操作系统的生产环境。在实际应用场景中,管理员适当对Linux内核参数进行调优,可在一定程度上提高作业的运行效率,比较有用的调整选项如下。一、增大同时打开的文件描述符和网络连接上限  在Hadoop集群中,由于涉及的作业和任务数目非常多,对于某个节点,由于操作系统内核在文件描述符和网络连接数目等方面的限制,大量的文件读写操作

2015-03-19 01:58:46 1575

转载 将 Ceph 存储集群集成到 OpenStack 云中

Ceph 是一个符合 POSIX (Portable Operating System for UNIX®)、开源的分布式存储系统,依据 GNU 次通用公共许可而运行。该项目最初由 Sage Weill 于 2007 年开发,该项目的理念是提出一个没有任何单点故障的集群,确保能够跨集群节点进行永久数据复制。与在任何经典的分布式文件系统中一样,放入集群中的文件是条带化的,依据一种称为 Cep

2015-03-13 00:48:39 1112

转载 在 OpenStack 中启用 Keystone LDAP 后端

开源的 OpenStack 项目为构建公共云和私有云提供了一个基础架构即服务(IaaS)层。企业、服务提供商、增值分销商、中小型企业、研究人员和全球数据中心都使用 OpenStack 来部署大型私有云或公共云。轻量级目录访问协议(LDAP)是一个客户端/服务器协议,用于访问和管理目录信息。许多企业应用程序都使用 LDAP 作为用户身份验证的基础。(LDAP 的实现包括 IBM® Tivol

2015-03-12 21:34:24 1340

转载 OpenStack 中的 Nova Cell

Nova Cell 模块简介Nova Cell 模块是 OpenStack 在 G Release 中提出的一个新的模块,允许用户在不影响现有 OpenStack 云环境的前提下,增强横向扩展、大规模部署能力。当 Nova Cell 模块启用后,OpenStack 云环境被分成多个子 Cell,并且是以在原 OpenStack 云环境中添加子 Cell 的方式,拓展云环境,以减少对原云环境

2015-03-12 21:16:38 1775

转载 OpenStack Swift 存储策略

OpenStack Swift 对象存储及其存储策略简介Swift 2.0 于 2014 年 7 月 8 日发布,其中最重要的新特性是存储策略(Storage Policy),该特性改变了以往存储系统中存储策略由设计与实施方决定的做法,让用户能够以 Container 为粒度,为不同需求的数据指定不同的副本数量、不同参数的纠删码、不同性能的存储介质、不同地理位置、不同的后端存储设备。存储策

2015-03-12 16:25:06 1507

转载 OpenStack开发源码如何获取及下载

OpenStack 是一种基础架构即服务 (IaaS) 云计算项目。资源通过一个仪表板来管理,该仪表板向管理员提供了控制权,并通过一个 Web 接口为用户提供了配置资源的权利。本文将介绍如何设置帐户、设置开发环境以及如何开始为 OpenStack 做贡献。第 1 步:通过在线注册和密钥配置来设置帐户设置您的 Launchpad 帐户。Launchpad 是 Open

2015-03-12 15:54:33 1259

转载 网易OpenStack 部署运维实战

OpenStack 简介OpenStack 是一个开源的 IaaS 实现,它由一些相互关联的子项目组成,主要包括计算、存储、网络。由于以 Apache 协议发布,自 2010 年项目成立以来,超过 200 个公司加入了 OpenStack 项目,其中包括 AT&T、AMD、Cisco、Dell、IBM、Intel、Red Hat 等。目前参与 OpenStack 项目的开发人员有 17,0

2015-03-12 15:44:52 1624

转载 自定义fact实现的四种方式介绍

自定义fact可以让节点增加更多的标签在使用puppet作为配置管理工具的同时,facter是一个非常有用的系统盘点工具,这个工具可以通过一些预先设定好变量定位一台主机,比如可以通过变量lsbdistrelease便可以知道当前系统的版本号,通过osfamily便可以知道系统是RedHat还是SLES,还是其它等等。但是这些预先设定好的变量毕竟有限,在整个自动化运维过程中,由于系统应用的多

2015-03-12 13:56:19 2625

转载 Puppetmaster多环境配置

将基础环境模块部署到puppetmaster端之后就可以初始化所有节点了,接下来就是部署应用代码了。众所周知,一个企业中应用代码的编写并不是运维一个人完成的,而且代码的上线也不是一次性完成的。标准的架构应该由开发、测试、生产三个组成,对应到puppetmaster里面应该有3套代码才对。而且每套代码都应该对应到自己的环境中,而代码的变更更应该通过版本控制工具进行管理,比如svn、git等。 接下来

2015-03-12 13:08:40 627

转载 Puppet更新方式的选型

基于C/S架构的Puppet更新方式一般有两种,一种是Agent端设置同步时间主动去PuppetMaster端拉取配置,另一种是通过PuppetMaster端使用puppet kick命令或者借助mcollctive触发更新配置,两种方式适应不同的生产环境,各具特色。一、主动更新主动更新就是节点运行的puppet守护进程到预设的时候后自动去和puppetmaster进行交互直至

2015-03-12 10:36:03 914

clickhouse官方文档PDF版本

clickhouse官方文档PDF版本哈。clickhouse官方文档PDF版本哈。

2018-10-12

apache spark的设计与实现

写的apache spark的设计与实现,共享给大家。

2016-02-03

openstack icehouse配置文件

自己配置的openstack icehouse的配置文件,有四个节点,集成了所有组件。供参考。

2014-10-07

hadoop-cdh4.6配置文件

hadoop-hbase-hive-zookeeper的cdh4.6.0和spark-0.9.0-incubating-bin-cdh4集群配置文件

2014-05-02

ext2Spring

基于extDirectSpring的源码,Jar包比较大所以删掉了,工程是基于extDirectSpring-1.3.8和spring-3.2.4,Jar包可以到网上下载,里面没勇嫂数据库。

2013-11-23

hadoopDemo-mapreduce

自己写的Hadoop的demo,是基于hadoop-2.0.0-cdh4.4.0的及其hadoop其他项目(hive,hbase,pig,zookeeper),Jar包自己找,然后下吧。本代码是基于集群配置的。

2013-11-13

Hadoop in Practice

Hadoop in Practice 是英文的书籍,有空要看看。

2013-11-05

Hadoop权威指南(中文版)

Hadoop权威指南,中文版的哈,很好的书,再看,是这方面最权威的书籍。

2012-04-23

集体智慧编程(中文版)

集体智慧编程(中文版),里卖弄有很都算法 都很好、很实用的算法。

2012-04-23

Python学习手册.pdf

Python学习手册中文的资料。 学习Python的好资料哦。

2012-04-23

SQL.Server.MVP.Deep.Dives

学习SQL Server的书籍,是一本MVP们写的书哦。

2012-03-08

HTML5 Canvas

一本讲HTMLcanvas的书!感觉很详细,值得一看。(英文版)

2012-03-06

LINQ资料word版

LINQ属于C#语言的一部分 我认为这个资料是学习LINQ的好资料 LINQ很强大,哈哈

2012-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除