hadoop
文章平均质量分 58
iteye_12579
这个作者很懒,什么都没留下…
展开
-
beginning
我打算开始写hadoop的博客了, :wink:2011-03-28 19:05:09 · 81 阅读 · 0 评论 -
hive wiki -UDTF
1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initialize, process, clos...原创 2013-03-19 15:56:26 · 144 阅读 · 0 评论 -
hive UDAF之cube
之前有想实现在hadoop上面自动cube,并计算同比的自动化解决方法。过考虑用UDAF去做但是一直没有去实现,最近项目中需要根据配置自动聚合生成数据,目标结果表格式固定,正好满足自动cube的场景,所以就搞了个demo,还在测试中[code="java"]package com.taobao.voc.hive.udf;/** * description :对传入的多个维度...原创 2014-04-10 20:51:36 · 189 阅读 · 0 评论 -
hive UDAF求平均值
最近做数据迁移项目,把聚合部分从kettle迁移到hadoop集群上,需要写很多聚合脚本在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错,有几个地方没看多,而且没有注释,只好从基础开始看,自己搞一个,之前写过UDF所以入手还是听快的准备:1、实现自己的UDAF需要集成UDAF2、至少有一个内部类,实现了org.apache.hadoop.hive.ql....原创 2012-06-23 17:07:00 · 911 阅读 · 0 评论 -
hive 抽样统计
本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的其实很多时候不需要理论,想也是可以想到的,不过还是总结一下 0.测试表: [code="sql"] dr...原创 2013-11-29 19:38:45 · 346 阅读 · 0 评论 -
重新安装hadoop
本文介绍hadoop 最简单配置,保证能本地测试自己写的程序,更多配置可参照末尾文章链接。之前在虚拟机中安装过hadoop hive hbase,电脑重做系统了,本次需要重新安装,虚拟机实在不方便,转cygwin吧,这个东东不错,window上可以用linux的很多东西,本地查看项目的log也很方便,比如 tail -fn 20 xxx.log 可以观察log输出。一、cygwin安...原创 2013-05-20 15:27:07 · 2081 阅读 · 0 评论 -
MP爱的初体验
[code="java"]写MP需要合适的测试框架是必须的,Mockito是不错的选择,Mockito是一个流行的Mocking框架。它使用起来简单,学习成本很低,而且具有非常简洁的API官网:http://mockito.org/jar包下载地址:http://code.google.com/p/mockito/downloads/list[/code]...原创 2012-03-01 23:07:46 · 93 阅读 · 0 评论 -
hive+python 入门
[code="java"]自己写的一个简单例子,用来做话题描述去重,表中的desc字段 “a-b-a-b-b-c”需要去重python代码如下:#!/usr/bin/pythonimport sysreload(sys)sys.setdefaultencoding('utf8')def quchong(desc): a=desc.split('-') ...原创 2012-02-14 09:44:58 · 197 阅读 · 0 评论 -
hadoop学习心得之安装01 hadoop安装
下载hadoop安装包 http://www.apache.org/dyn/closer.cgi/hadoop/core/ 下载最新的 将hadoop安装包hadoop-0.20.1.tar.gz解压到D:\hadoop\接下来,需要修改hadoop 的配置文件,它们位于conf 子目录下,分别是hadoop-env.sh、core-site.xml、hdfs-site...原创 2011-04-02 22:05:50 · 423 阅读 · 0 评论 -
hadoop学习心得之安装01 cygwin安装
hadoop是基于 unix 的 我的是Windows7所以要安装 cygwin安装之前保证已经安装 jdk 1.6 以上在安装 Cygwin 之前,得先下载 Cygwin 安装程序 setup.exe。 http://www.cygwin.com/ 找最新版本。上面有 安装帮助一路next 到下图:[img]1.jpg[/img] 擦 第一次写博客,javaey...2011-04-02 21:13:56 · 93 阅读 · 0 评论 -
hive wiki -UDF
今天回头看了下之前写的关于hive udf的博客发现好乱啊,最近又开发了一些工作中用到的udf(泛指),还是整理一下,也学对别人能有用(认知盈余)add [jar/file] 是讲文件放入session中,集群共享session中内容[code="java"] list jars;my_jar.jar[/code][code="java"] list files;x...原创 2012-07-01 14:34:47 · 95 阅读 · 0 评论 -
FP-tree 关联规则挖掘
去年公司1拆4,再拆3,在拆25,真是72搬变化,看的我等屌丝一阵胆寒,但一年过去了并没有影响我和同事们的工作,也没有听得到一些负面消息,nice,看来level还查一大大截。拆25的一个大的结果是前台流量必然被瓜分,这个应该会很纠结,有点远,打住。今年我的技术方向有BI转向算法多一点,这也是我个人很甘兴趣的,团队专注于CRM这一块,现在提的比较多的是CEM,好像你还再提crm...原创 2013-03-31 20:49:38 · 200 阅读 · 0 评论