2014年05月_Tech_Hog

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 hive基本用法汇总（部分）

看到的文章，总结的很好，转载一下：原文http://www.jiacheo.org/blog/1261，创建表?123456CREATETABLEpage_view(viewTimeINT, userid BIGINT,page_url STRING, referrer

2014-05-29 13:55:54 1364

转载 vi及缩进设置

vi编辑器是所有Unix及Linux系统下标准的编辑器，它的强大不逊色于任何最新的文本编辑器，这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本，vi编辑器是完全相同的，因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器，学会它后，您将在Linux的世界里畅行无阻。1、vi的基本概念　　基本上vi可以分为三种状

2014-05-29 10:41:36 1423

转载 git常用操作教程

不敢说这是git常用操作最全的教程，这是本人再前人的基础上加上应用了三年多git总结的，应该是比较全的，后续我还会把git 常见的错误总结出来。git基本工作流程git支持很多种不同的工作流程，我们采用的是与SVN接近的模拟中央服务器流程。即，有一个公用的代码库放在服务器上，开发者从这个共享的服务器克隆后，在本地开发，然后提交到服务器，并且从服务器获取其他用户提交的内容。

2014-05-28 12:25:32 922

原创 python各种模块的使用

Pexpect模块：http://www.ibm.com/developerworks/cn/linux/l-cn-pexpect1/ConfigParser模块：http://blog.chinaunix.net/uid-25890465-id-3312861.htmllogging模块：http://kenby.iteye.com/blog/1162698threading模块

2014-05-21 17:42:42 1234

转载 Hadoop MapReduce 二次排序原理及其应用

目录[-]1、首先说一下工作原理： 2、二次排序 3、具体步骤： 1 自定义key。 2 由于key是自定义的，所以还需要自定义一下类： 4 代码：5 测试需求：6 测试数据与结果：7 原理图（点击查看大图）：8、推荐阅读：9、REF:关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是setPar

2014-05-10 15:15:04 1105

原创 python 实现Hadoop的partitioner和二次排序

Hadoop Streaming 是一个工具，代替编写Java的实现类，而利用可执行程序来完成map-reduce过程工作流程　：　InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles理解 :　1 输入文件，可以是指定远程文件系统内的文件夹下的 *2 通过集群自己分解到各个PC

2014-05-10 15:11:04 3696

转载用 Python写 daemon

最近用 Python 可能要写 daemon，找资料先看看。参照《UNIX 环境高级编程》第十三章：(1) 首先做的是调用 fork，然后使父进程 exit。这样做实现了下面几点：第一，如果该精灵进程是由一条简单 shell 命令起动的，那么使父进程终止使得 shell 认为这条命令已经执行完成。第二，子进程继承了父进程的进程组 ID，但具有一个新的进程 ID，这就保证了子进程

2014-05-26 20:35:35 949

转载有限状态机

1.有限状态机1.1 概述有限状态机是指输出取决于过去输入部分和当前输入部分的时序逻辑电路。有限状态机又可以认为是组合逻辑和寄存器逻辑的一种组合。状态机特别适合描述那些发生有先后顺序或者有逻辑规律的事情，其实这就是状态机的本质。状态机就是对具有逻辑顺序或时序规律的事件进行描述的一种方法在实际的应用中根据状态机的输出是否与输入条件相关，可将状态机分为两大类，即摩尔 (Moor

2014-05-26 14:10:59 1564

转载浅析Python中的struct模块

最近在学习python网络编程这一块，在写简单的socket通信代码时，遇到了struct这个模块的使用，当时不太清楚这到底有和作用，后来查阅了相关资料大概了解了，在这里做一下简单的总结。了解c语言的人，一定会知道struct结构体在c语言中的作用，它定义了一种结构，里面包含不同类型的数据(int,char,bool等等)，方便对某一结构对象进行处理。而在网络通信当中，大多传递的数

2014-05-23 17:32:05 725

转载提高分类器准确率的几种方法总结

一、装袋对样本空间 D 进行放回抽样，得到样本空间的一个子集 Di，由Di得到一个分类器Mi。不断的重复上述过程，就可以得到一系列分类器 M1,M2,M3....Mi ，在分类时用这些分类器进行投票来决定分类。二、提升和AdaBoost对长度为d的训练样本空间 D 的每一个元组分配一个初始的权限 1/d，然后开始一个迭代的过程：根据元组的权限来作为抽取概率

2014-05-23 13:23:31 4461

转载努力成为优秀的工程师（华为诺亚方舟实验室首席科学家李航）

一直在IT企业的研究部门任职，迄今经历了三家大公司：NEC、微软、华为。工作都是既有基础研究，又有产品开发。其实，这两者既有密切联系，性质上又迥然不同。前者在于发现或发明普适性的理论与方法，后者在于开发实用性的系统与工具。可以说，前者需要的思维方式、基本技能与素质是科学家的，而后者是工程师的。经常提醒自己的是，一定要明确在具体项目中自己到底带着什么“帽子”在工作，是科学家，还是工程师？

2014-05-22 20:13:16 1460

转载 Linux下ps命令详解

有时候系统管理员可能只关心现在系统中运行着哪些程序，而不想知道有哪些进程在运行。由于一个应用程序可能需要启动多个进程。所以在同等情况下，进程的数量要比程序多的多。为此从阅读方面考虑，管理员需要知道系统中运行的具体程序。要实现这个需求的话，就需要利用命令ps来帮忙。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命

2014-05-22 17:26:03 1951

转载 Python标准模块logging

开发Python, 一直以来都是使用自己编写的logging模块. 比较土......今天发现python的标准模块的这个功能做的挺好, 记录一下, 以后使用模块来进行logging.对于这个模块的介绍网上也很多, 我也不用自己写了, 比较好的如下,http://crazier9527.iteye.com/blog/290018 Python的标准logging模块

2014-05-19 16:37:58 907

转载 Python yield 使用浅析

您可能听说过，带有 yield 的函数在 Python 中被称之为 generator（生成器），何谓 generator ？我们先抛开 generator，以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个和第二个数外，任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前

2014-05-16 14:23:52 688

转载 hadoop stream 参数详解

1 hadoop streaming[html] view plaincopyHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如， $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/ha

2014-05-16 11:07:27 894

转载 Linux 之 shell 比较运算符

运算符描述示例文件比较运算符-e filename如果 filename 存在，则为真[ -e /var/log/syslog ]-d filename如果 filename 为目录，则为真[ -d /tmp/mydir ]-f filename如果 filename 为常规文件

2014-05-15 20:12:33 821

转载生活中真正的雷题，你能解出来吗？

1、文章劈腿，求他腿的长度。＠古老桐尚 2、小明抱到了大腿，求大腿肌肉结构图。3、小红出了一个银桑的cos，求三角函数cos为多少。＠撸出一管蓝瓶钙 4、小明遭遇了车祸，给他留下了心理阴影，求阴影的面积。5、小明有了对象，求对象的内存地址。生活中真正的神题，你能解出来吗？6、小明和朋友去唱k，求k的取值范围。＠你说什么再说一遍 7、“老师，以上的题目你来求一下？” “

2014-05-07 20:24:46 1112

转载 hive学习笔记

1. HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 re

2014-05-06 17:31:05 1262

转载 28个Unix/Linux的命令行神器

下面是Kristóf Kovács收集的28个Unix/Linux下的28个命令行下的工具(原文链接)，有一些是大家熟悉的，有一些是非常有用的，有一些是不为人知的。这些工具都非常不错，希望每个人都知道。本篇文章还在Hacker News上被讨论，你可以过去看看。我以作者的原文中加入了官网链接和一些说明。dstat & sar iostat, vmstat, ifstat 三合

2014-05-06 14:24:16 743

转载 Python机器学习库

Python在科学计算领域，有两个重要的扩展模块：Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括：一个强大的N维数组对象Array；比较成熟的（广播）函数库；用于整合C/C++和Fortran代码的工具包；实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包，SciPy包含的模块有最优化

2014-05-06 10:12:58 976

转载 python threading 学习笔记

1.join()方法的使用join方法，如果一个线程或者一个函数在执行过程中要调用另外一个线程，并且待到其完成以后才能接着执行，那么在调用这个线程时可以使用被调用线程的join方法例子：import threading, timeclass MyThread(threading.Thread): def __init__(self, id):

2014-05-05 18:55:19 764

转载 python利用thrift连接hive

Thrift是一个跨语言服务部署框架，最初由Facebook于2007年开发，后于2008年进入Apache孵化器(Apache Incubator)。类似于SOAP，COM 和CORBA，Thrift通过定义一个中间定义语言和Thrift代码生成工具，生成指定语言的代码。目前，Thrift支持C++,Java, Python, PHP, Ruby, Erlang, Perl, Haske

2014-05-05 11:26:54 1693