2014年04月_播种生活

原创 Hbase shell 命令详解

安装好hbase后，执行hbase shell，进入hbase shell命令行：1，建立一个表student：hbase(main):030:0> create 'student','grade','course'0 row(s) in 0.6060 secondshbase(main):031:0> 2，查看hbase中表，有scores、student、test三个

2014-04-19 13:52:38 848

原创 mysql:Table './xdb/auditlog' is marked as crashed and should be repaired

在mysql中遇到这个问题：Table './xdb/auditlog' is marked as crashed and should be repaired：解决方法：mysql> repair table xdb.auditlog;+-------------------+--------+----------+----------+| Table

2014-04-16 16:05:04 1078

原创 python：删除文件中包含关键词的行

re.compile(),正则表达式在模式匹配前进行预编译；使用预编译代码比字符串快；test.txt中包含以下文字：1:li2:test3:num在运行完程序，生成的target.txt中，内容为1:li3:num代码清单如下：import relist = []matchPattern = re.compile(r'.+:test')

2014-04-15 16:15:21 7363 1

原创 linux 前台后台运行job管理

1, 查jobs：hadoop11:/usr/lib/hive # jobs[1]+ Running nohup hive --service hiveserver -p 10000 & (wd: /usr/lib/hadoop-0.20.2/bin)hadoop11:/usr/lib/hive # jobs -l[1]+ 5813 Runni

2014-04-13 12:56:53 2208

转载 Hive简介

原文：http://www.distream.org/?p=393 1 和传统数据库的比较读时模式vs.写时模式传统数据库是写时模式(schema on write)，即数据在写入数据库时对模式进行检查。Hive在数据加载时不进行验证，而是在查询时进行，是读时模式（schema on read）。写时模式有利于提升查询性能，因为数据库可以对列进行索引，并对数据压缩。但作为权衡，此时

2014-04-13 11:06:43 544

转载 HDFS HA: 高可靠性分布式存储系统解决方案的历史演进

HDFS HA: 高可靠性分布式存储系统解决方案的历史演进HDFSHADRBDHDFS FederationHadoop目录(?)[+]1. HDFS 简介 HDFS，为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS的系统架构是典型的主/从架构，早期的架构包括一个主节点NameNode和多个从节点DataNod

2014-04-12 14:17:19 613

转载 hive（数据仓库工具）

54hive（数据仓库工具）编辑hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2014-04-12 09:23:01 493

转载 python 之分割参数getopt

python 之分割参数getopt os下有个方法walk，非常的好用，用来生成一个generator。每次可以得到一个三元tupple，其中第一个为起始路径，第二个为起始路径下的文件夹，第三个是起始路径下的文件。 1. 导入getopt, sys 模块 2. 分析命令行参数 3. 处理结果第一步很简单，只需要： import getopt, sys

2014-04-11 16:53:31 495

原创 mapreduce--如何设置reducer的个数

1，在缺省情况下，一个mapreduce的job只有一个reducer；在大型集群中，需要使用许多reducer，中间数据都会放到一个reducer中处理，如果reducer数量不够，会成为计算瓶颈。2，reducer的最优个数与集群中可用的reducer的任务槽数相关，一般设置比总槽数稍微少一些的reducer数量；hadoop文档中推荐了两个公式：0.95*NUMBER_OF_NODE

2014-04-06 22:28:36 4112

原创 mapreduce在倒排索引中练习

倒排索引是文件检索系统中常用的数据结构，被广泛应用于全文章搜索引擎。通常情况下，倒排索引由一个单词或词组以及相关的文档列表组成，文档列表中的文档或者是标识文档的ID号，或者是指定文档所在位置的URI；在实际应用中，往往还需要给每个文档加一个权值，用来指出每个文档与搜索内容的相关度；我的例子中，文档内容如下：hadoop11:/home/in/win1 # hadoop fs -ca

2014-04-06 15:33:55 953

原创使用ping测试MTU值

MTU:MTU是Maximum Transmission Unit的缩写；意思是网络上传送的最大数据包。MTU的单位是字节。大部分网络设备的MTU都是1500。把本机的MTU设成比网关的MTU小或相同，就可以减少丢包。如果本机的MTU比网关的MTU大，大的数据包就会被拆开来传送，这样会产生很多数据包碎片，增加丢包率；如果检测到网关的MTU值是1500，从1400到1472之间多试几次，就能

2014-04-03 14:34:17 15237 2

momomi_2005的专栏