自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hive中与hbase外部表join时内存溢出(hive处理mapjoin的优化器机制)

与hbase外部表(wizad_mdm_main)进行join出现问题:CREATE TABLE wizad_mdm_dev_lmj_edition_result asselect * from  wizad_mdm_dev_lmj_20141120 as w JOIN wizad_mdm_main as a ON (a.rowkey = w.guid);程序启动后,死循环

2014-11-28 17:03:17 3242

原创 hive的数据导入与数据导出:(本地,云hdfs,hbase),列分隔符的设置,以及hdfs上传给pig如何处理

1数据导入--------------CREATE EXTERNAL TABLE wizad_mdm_dev_lmj_edition_20141120 (cookie_id STRING,guid STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'stored a

2014-11-26 18:13:22 26820 2

原创 hive的map类型处理

--首先进行一些基础配置设置:SET mapred.job.queue.name=queue3;SET hbase.client.scanner.caching=5000;SET hbase.zookeeper.quorum=datanode06,datanode07,datanode08;SET zookeeper.znode.parent=/hbase;--然后对h

2014-11-26 18:10:01 20558

原创 pig的udf编写

http://www.cnblogs.com/anny-1980/p/3673569.htmlhttp://blog.csdn.net/ruishenh/article/details/12048067http://blog.csdn.net/ruishenh/article/details/12192391

2014-11-26 17:09:06 1030

原创 最优解算法的讨论

不懂优化的人希望能有通用的方法来解决他手头的问题,但不幸的事没有这种方法存在,快速的方法都需要某些条件,比如常见的有强凸,线性,可分解啥的。目前研究的比较成熟的就是强凸光源可分解 非凸没有特别有效的方法来解,如果是强凸的,何必用那么复杂的方法求最优解?正是因为不是强凸的,才用到优化方法。就算是凸的,也分好几种不同的情况,只用一阶梯度,达到牛顿梯度法的收敛速度,在convex问题中,还有no

2014-11-18 13:29:45 24108

原创 ROC曲线的AUC(以及其他评价指标的简介)知识整理

相关评价指标在这片文章里有很好介绍信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC:http://blog.csdn.net/marising/article/details/6543943ROC曲线得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性

2014-11-18 12:49:08 10084 1

原创 互联网广告的个性化推荐平台设计--相关知识

人群分类模型根据用户人群数据记录,建立人群属性分类模型,根绝用户特点,将用户标记为特定类别。据此进行精准定向服务,并进行效果评估。主要分类方法:1.采用模糊数学综合判定理论,构建关系矩阵,判定类别属性的映射关系。采样真实数据,模拟真实数据分布,统计属性取值的概率分布,作为概率的估计值,另外,将广告类别的点击次数作为权重矩阵R。构建映射关系公式:R是关系矩阵,W是出现次数矩阵,C是计

2014-11-14 18:32:04 2888

原创 pig 的chararry类型不能用比较运算符comparison operator

pig 的chararry类型可能是按字段,逐个字段进行比较。element_id 是chararray类型,语句:no_app_category_mapping = filter no_element_id by element_id == '' or element_id is null or element_id == '0' or element_id >='14'

2014-11-14 14:22:57 2311

转载 pig函数以及关键字 的一些实例应用的总结(来自pig笔记)

http://wenku.baidu.com/link?url=yb7KnpSj9nHxWk_MsEVUezvB24evRf9wR87FX0dTT77pGXNXi6k3o_kTmAkBrpIHTqo66cr8P5cGOdHJKzqFsWFVt6xgvzWs5cxWKfcs6ee这里面总结的挺全面,尤其最后的一些小例子,很使用。我都写过,不过还是借鉴一下比较好pig的计算函数,过

2014-11-13 17:46:46 1528

原创 pig对null的处理(实际,对空文本处理为两种取值null或‘’)

pig对文本null的处理很特殊。会处理成两种null,还会处理成''这种空值。比如,读name,age,sex日志信息。name取值处理,如果记录为“,,,”这样,会将name取值为null,如果记录为“,19,男”则name会处理为''。同样是空值,pig读取后的取值却不一样。所以一定要小心。pig读取日志信息,遇到取值为空的字段会处理为两种,一种取值为'',另一种为null。

2014-11-13 15:58:03 3378

原创 pig中查询top k,返回每个hour和ad_network_id下最大两个记录(SUBSTRING,order,COUNT_STAR,limit)

pig里面是有TOP函数,不知道为什么用不了。有时间要去看看pig源码了。SET job.name 'top_k';SET job.priority HIGH;--REGISTER piggybank.jar;REGISTER wizad-etl-udf-0.1.jar;--DEFINE SequenceFileLoader org.apache.pig.p

2014-11-10 17:18:02 1869

原创 pig的内置函数小总结(不全)

piggybank里面有很多函数,可以用register和define调用。也可以用java仿照piggybank自行开发。比如读sequence二进制文件,可以用piggybank里面函数SequenceFileLoader,也可以自行开发函数。--REGISTER piggybank.jar;REGISTER wizad-etl-udf-0.1.jar;--DEFINE

2014-11-05 15:08:19 4248

原创 RTB--Real TimeBidding模式的互联网广告(实时竞价的广告投放)

RTB(real time bidding)其实RTB更核心的是生态环境的建立,

2014-11-03 18:45:58 7215 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除