自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hbase shell 命令详解

安装好hbase后,执行hbase shell,进入hbase shell命令行:1,建立一个表student:hbase(main):030:0> create 'student','grade','course'0 row(s) in 0.6060 secondshbase(main):031:0>  2,查看hbase中表,有scores、student、test三个

2014-04-19 13:52:38 848

原创 mysql:Table './xdb/auditlog' is marked as crashed and should be repaired

在mysql中遇到这个问题:Table './xdb/auditlog' is marked as crashed and should be repaired:解决方法:mysql> repair table xdb.auditlog;+-------------------+--------+----------+----------+| Table          

2014-04-16 16:05:04 1078

原创 python:删除文件中包含关键词的行

re.compile(),正则表达式在模式匹配前进行预编译;使用预编译代码比字符串快;test.txt中包含以下文字:1:li2:test3:num在运行完程序,生成的target.txt中,内容为1:li3:num代码清单如下:import relist = []matchPattern = re.compile(r'.+:test')

2014-04-15 16:15:21 7363 1

原创 linux 前台后台运行job管理

1, 查jobs:hadoop11:/usr/lib/hive # jobs[1]+  Running                 nohup hive --service hiveserver -p 10000 &  (wd: /usr/lib/hadoop-0.20.2/bin)hadoop11:/usr/lib/hive # jobs -l[1]+  5813 Runni

2014-04-13 12:56:53 2208

转载 Hive简介

原文:http://www.distream.org/?p=393 1 和传统数据库的比较读时模式vs.写时模式传统数据库是写时模式(schema on write),即数据在写入数据库时对模式进行检查。Hive在数据加载时不进行验证,而是在查询时进行,是读时模式(schema on read)。写时模式有利于提升查询性能,因为数据库可以对列进行索引,并对数据压缩。但作为权衡,此时

2014-04-13 11:06:43 544

转载 HDFS HA: 高可靠性分布式存储系统解决方案的历史演进

HDFS HA: 高可靠性分布式存储系统解决方案的历史演进HDFSHADRBDHDFS FederationHadoop目录(?)[+]1. HDFS 简介    HDFS,为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS的系统架构是典型的主/从架构,早期的架构包括一个主节点NameNode和多个从节点DataNod

2014-04-12 14:17:19 613

转载 hive(数据仓库工具)

54hive(数据仓库工具)编辑hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

2014-04-12 09:23:01 493

转载 python 之 分割参数getopt

python 之 分割参数getopt os下有个方法walk,非常的好用,用来生成一个generator。每次可以得到一个三元tupple,其中第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。 1. 导入getopt, sys 模块 2. 分析命令行参数 3. 处理结果 第一步很简单,只需要: import getopt, sys

2014-04-11 16:53:31 495

原创 mapreduce--如何设置reducer的个数

1,在缺省情况下,一个mapreduce的job只有一个reducer;在大型集群中,需要使用许多reducer,中间数据都会放到一个reducer中处理,如果reducer数量不够,会成为计算瓶颈。2,reducer的最优个数与集群中可用的reducer的任务槽数相关,一般设置比总槽数稍微少一些的reducer数量;hadoop文档中推荐了两个公式:0.95*NUMBER_OF_NODE

2014-04-06 22:28:36 4112

原创 mapreduce在倒排索引中练习

倒排索引是文件检索系统中常用的数据结构,被广泛应用于全文章搜索引擎。通常情况下,倒排索引由一个单词或词组以及相关的文档列表组成,文档列表中的文档或者是标识文档的ID号,或者是指定文档所在位置的URI;在实际应用中,往往还需要给每个文档加一个权值,用来指出每个文档与搜索内容的相关度;我的例子中,文档内容如下:hadoop11:/home/in/win1 # hadoop fs -ca

2014-04-06 15:33:55 953

原创 使用ping测试MTU值

MTU:MTU是Maximum Transmission Unit的缩写;意思是网络上传送的最大数据包。MTU的单位是字节。大部分网络设备的MTU都是1500。把本机的MTU设成比网关的MTU小或相同,就可以减少丢包。如果本机的MTU比网关的MTU大,大的数据包就会被拆开来传送,这样会产生很多数据包碎片,增加丢包率;如果检测到网关的MTU值是1500,从1400到1472之间多试几次,就能

2014-04-03 14:34:17 15237 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除