自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

竹叶青 的专栏

hadoop hive 数据挖掘 python

  • 博客(11)
  • 资源 (2)
  • 收藏
  • 关注

原创 lxml包引入错误

在使用第三方包lxml引入etree模块时报错:>>> from lxml import etreeTraceback (most recent call last): File "", line 1, in ?ImportError: dynamic module does not define init function (initetree)   由于之前安装是直接使用源码包进行

2012-04-25 17:55:36 27824

转载 hadoop 集群大版本切换之保存数据和日志的方法

查看原文 注:将版本从0.21.0 切换到 0.20.205.0 ,或者反过来切换,没有办法用自带的upgrade命令(文中的许多操作最好能够写成脚本,手动操作过于麻烦)转载请注明出处,谢谢,实现出来确实挺累的测试之前的情况测试采用三台机器作为测试:Namenode/secondarynamenode:192.168.1.39  slave039(该节点连接外网11

2012-04-20 10:12:48 2079

转载 Hadoop 0.23.x/NameNode federation原理、编译、安装、体验

查看原文从0.23.0开始,Hadoop开始支持分布式NameNode,通过NameNode federation的形式实现。这样实现了NameNode的横向扩展,使得Hadoop集群的规模可以达到上万台。同时在NameNode HA机制方面,trunk中的代码也开始merge进ha-branch的功能,原来的SecondaryNamenode被BackupNode和CheckpointN

2012-04-20 09:48:57 2741

原创 配置vm虚拟机的端口转发

此配置方法适用于工作机A 配置CRT访问工作机B上安装vm linux虚拟机服务。     1)安装vm虚拟机,配置该虚拟机的网络方式为NAT     2)打开vm软件的虚拟网络配置:      3)打开后选择NAT选项框:将红色框标记的信息记录下来,待修改linux服务器配置时使用;点击蓝色框标记的按钮        4)将Port Forwarding选项框选中

2012-04-19 15:59:46 14727

转载 业务开发测试HBase之旅四:HBase MapReduce实例分析

现在有业务需求有实时性统计需求,可能要用到Hbase,所以特转载了一些关于hbase的文章转载自:Taobao QA Team,原文地址:http://qa.taobao.com/?p=13914跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Had

2012-04-18 12:07:47 1913

转载 业务开发测试HBase之旅二:通过HBase Shell与HBase交互

现在有业务需求有实时性统计需求,可能要用到Hbase,所以特转载了一些关于hbase的文章转载自:Taobao QA Team,原文地址:http://qa.taobao.com/?p=13871HBase提供了丰富的访问接口。• HBase Shell• Java clietn API• Jython、Groovy DSL、Scala• REST• Thrift(Ru

2012-04-18 12:00:12 1634

转载 业务开发测试HBase之旅一:HTable基本概念

现在有业务需求有实时性统计需求,可能要用到Hbase,所以特转载了一些关于hbase的文章转载自:Taobao QA Team,原文地址:http://qa.taobao.com/?p=13850引言团队中使用HBase的项目多了起来,对于业务人员而言,通常并不需要从头搭建、维护一套HBase的集群环境,对于其架构细节也不一定要深刻理解(交由HBase集群维护团队负责),迫切需要的

2012-04-18 10:27:14 2150

原创 开发自定义python 迭代器

class test(object): def __init__(self,data_iter,stop): self.data_iter = data_iter self.stop = stop self.start = 0 def __iter__(self): return self def next

2012-04-16 10:35:17 1061

转载 sort命令用法

查看原文sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。[rocrocket@rocrocket programming]$ cat seq.txtbananaapplepear

2012-04-13 17:41:26 719

原创 hadoop streaming 脚本格式错误

在调试mapred程序时,经常会遇到以下错误代码:java.io.IOException: Cannot run program "/data3/hadoop/mapred/mrlocal/taskTracker/test/jobcache/job_201203021500_101813/attempt_201203021500_101813_m_000000_0/work/./FptreeM

2012-04-13 09:31:19 1095

转载 python字符串格式化

查看原文字符串的格式化 在python中也有类似于c中的printf()的格式输出标记。在python中格式化输出字符串使用的是%运算符,通用的形式为格式标记字符串 % 要输出的值组其中,左边部分的”格式标记字符串“可以完全和c中的一致。右边的'值组'如果有两个及以上的值则需要用小括号括起来,中间用短号隔开。重点来看左边的部分。左边部分的最简单形式为:

2012-04-05 15:03:49 760

thriftTest java案例代码

windows上开发java thrift 的案例代码

2013-05-07

hadoop1.0.2 eclipse 插件

hadoop1.0.2 eclipse 插件

2012-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除