- 博客(28)
- 资源 (16)
- 收藏
- 关注
转载 python uuid模块
>>> import uuid# 生成基于计算机主机ID和当前时间的UUID>>> uuid.uuid1()输出结果:UUID('a8098c1a-f86e-11da-bd1a-00112444be1e')# 基于命名空间和一个字符的MD5加密的UUID>>> uuid.uuid3(uuid.NAMESPACE_DNS, 'python.org')输出结
2014-08-31 09:54:36 7095
原创 python格式化日期输入
strftime(...) strftime(format[, tuple]) -> string 将指定的struct_time(默认为当前时间),根据指定的格式化字符串输出 python中时间日期格式化符号: %y 两位数的年份表示(00-99) %Y 四位数的年份表示(000-9999) %m 月份(01-12) %d 月内中的一天(0-31)
2014-08-31 09:26:59 8055
转载 spark安装,单节点spark,spark standalone
今天来说说如何部署分布式的 Spark 集群,在本篇文章中,我主要是介绍如何部署Standalone模式。 一、修改配置文件1、将$SPARK_HOME/conf/spark-env.sh.template文件复制一份到spark-env.sh,并作以下修改(可选):export SCALA_HOME=/export1/spark/scala-2.10.3export H
2014-08-28 22:21:44 8609
转载 scala安装scala的eclipse插件安装
刚刚开始学习spark,需要用到scala,所以打算开始自学scala。前提是已经安装好jdk。(1)安装scala在官网上下载scala,本人下载scala-10.04 http://www.scala-lang.org/download/all.html其中windows下有两个版本。msi和exe,具体区别可百度查看。这边随便找了一个说明http://zhidao.baid
2014-08-26 20:47:16 6679
原创 hadoop job -list报错解决方法
错误信息[root@single Desktop]# hadoop job -listDEPRECATED: Use of this script to execute mapred command is deprecated.Instead use the mapred command for it.SLF4J: Class path contains multiple
2014-08-22 10:17:49 10527
转载 order by,sort by,distribute by,cluster by详解
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b
2014-08-21 11:27:49 7181
转载 hadoop调度器
随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(注:本文介绍的Hadoop调度器不够系统化,如果想了解更系统化的Hadoop调度
2014-08-17 20:19:44 6769
转载 hive中对lzo压缩文件建立索引实现并行处理
1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL
2014-08-15 17:20:18 8208
转载 生产环境下Hadoop大集群安装与配置+DNS+NFS
一 环境Linux ISO:CentOS-6.0-i386-bin-DVD.iso 32位 JDK version:"1.6.0_25-ea" for linuxHadoop software version:hadoop-0.20.205.0.tar.gz for linuxVMware® Workstation Version: 7.0.0 buil
2014-08-13 15:59:29 8600
转载 centos mount nfs-mount: wrong fs type, bad option
CentOS 6.0:yum install -y nfs-utils rpcbindCentOS 5.x:yum install -y nfs-utils portmap注:rpcbind是端口映射服务,在CentOS5下为portmap
2014-08-13 11:54:55 9026
转载 liunx的dns配置
环境准备:三台机器,为与hadoop.com的域名区分,测试的域名为 hadoop.testMaster 192.168.1.2 准备安装bind服务,对应的DNS名称为master.hadoop.testSlave1 192.168.1.103 对应的DNS名称为slave1.hadoop.testSlave2 19.168.1.3 对应的DNS名称
2014-08-13 10:36:57 6507
原创 hadoop2.4环境搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,
2014-08-12 09:09:16 6758
转载 用python写MapReduce函数 以WordCount为例,比较详细的
尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例,而不是用Jython把python代码转化成jar文件。 例子的目的是统计输入文件的单词的词频。输入:文本文件 输出:文本(每行包括单词和单词的词频,两者之间用'\t'隔开)1. Python Map
2014-08-11 14:36:46 6989
原创 linux执行python的脚本文件,提示提示No such file or directory
在window平台下,写好shell脚本文件,迁移到linux平台,赋过可执行权限,执行该sh文件,却提示No such file or directory。ls 了下,确实有该文件,怎么会事呢,难道是文件格式兼容性问题?用vim打开该sh文件,输入:[plain] view plaincopy:set ff 回车,显示
2014-08-11 11:51:12 12434
转载 使用/usr/bin/env的好处
在linux的一些脚本里,需在开头一行指定脚本的解释程序,如:#!/usr/bin/env python再如:#!/usr/bin/env perl#!/usr/bin/env zimbu但有时候也用#!/usr/bin/python和#!/usr/bin/perl那么 env到底有什么用?何时用这个呢?脚本用env启动的原因,是因为脚本解释器在
2014-08-11 11:20:34 8109
转载 hbase性能优化大全,很全,很牛
HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数
2014-08-07 15:37:11 7939
转载 hbase的缓存cacheblock
HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分做BlockCache,用来读,当然Memstore也有读的功效,不过由于Hbase的scan机制,从Memsotre读到数据的效果一般。 今天主要来分析下Hbase的BlockCache机制,并且阐述其中碰到的一个RTE异常。 话不多说,首先来看看Hbase的
2014-08-07 15:16:52 8408
转载 java并发集合类
在Java类库中出现的第一个关联的集合类是 Hashtable。 Hashtable 提供了一种易于使用的、线程安全的、关联的map功能。然而,线程安全性付出代价是――Hashtable 的所有方法都是同步的。Hashtable 的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的,它通过提供一个不同步的基类和一个同步的包装器Collections.synchronizedMap ,
2014-08-07 14:26:39 6628
转载 程序员悲催的事情
在StakeOverflow上有这样一个贴子叫“Confessions of your worst WTF moment”(WTF就是What the fuck的缩写),挺有意思的,我摘几个小故事过来,希望大家在笑过之后能从中学到什么——所有的经验都是从错误中来的(我在其中加了一些点评)我们公司的软件是给警察局用的,那是一个对用来处理被逮捕的人的系统,此系统还需要收集脸部特征和指纹
2014-08-07 14:05:50 6445
转载 java并发集合ConcurrentHashMap详解加源码
集合是编程中最常用的数据结构。而谈到并发,几乎总是离不开集合这类高级数据结构的支持。比如两个线程需要同时访问一个中间临界区(Queue),比如常会用缓存作为外部文件的副本(HashMap)。这篇文章主要分析jdk1.5的3种并发集合类型(concurrent,copyonright,queue)中的ConcurrentHashMap,让我们从原理上细致的了解它们,能够让我们在深度项目开发中获益非浅
2014-08-07 11:53:58 6670
转载 hbase中的缓存的计算与使用
hbase中的缓存分了两层:memstore和blockcache。 其中memstore供写使用,写请求会先写入memstore,regionserver会给每个region提供一个memstore,当memstore满64MB以后,会启动flush刷新到磁盘。当memstore的总大小超过限制时(heapsize * hbase.regionserver.global.
2014-08-06 17:20:29 6501
转载 MapReducer中的多次归约处理
我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。在Reducer任务中,通常做的事情是对数据进行归约处理。既然数据来源是Mapper任务的输出,那么是否可以在Mapper端对数据进行归约处理,业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减
2014-08-06 16:58:40 6824
转载 MapReduce中的二次排序
在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧,见下图。在图中,数据处理分为四个阶段:(1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为
2014-08-06 16:31:25 6487
转载 为hadoop和hbase配置压缩算法
Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取
2014-08-06 10:25:53 6582 1
转载 JVM原理和优化详解
JVM工作原理和特点主要是指操作系统装入JVM是通过jdk中Java.exe来完成,通过下面4步来完成JVM环境.1.创建JVM装载环境和配置2.装载JVM.dll3.初始化JVM.dll并挂界到JNIENV(JNI调用接口)实例4.调用JNIEnv实例装载并处理class类。在我们运行和调试Java程序的时候,经常会提到一个JVM的概念.JVM是J
2014-08-06 09:21:24 7125 1
原创 hadoop2.2+zk ha环境搭建
1.节点准备三个节点:master 192.168.1.150namenode,resourcemanager,datanode,nodemanager,zookeeper,journalnode,dfszkfailovercontrollerslave1 192.168.1.151namenode,datanode,nodemanager,zookeeper,journaln
2014-08-06 09:10:50 6928
转载 ganglia和nagios配置实现hadoop集群监控
Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。而ganglia又依赖于一个web服务器用来显示集群状态,用rrdtool来存储数据和生成曲线图,需要xml解析因此需要expat,配置文件解析需要libconfuse。安装apche的h
2014-08-05 15:01:09 7350
转载 hdfs优缺点
本帖最后由 pig2 于 2014-2-4 14:20 编辑1 HDFS体系结构简介及优缺点1.1体系结构简介 HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些Da
2014-08-05 14:31:31 7320
SonarLint-3.5-for-intellj-idea-亲测好使.zip
2019-08-09
C#语言c/结构酒店管理系统_幽灵工作室提供
2013-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人