- 博客(168)
- 资源 (1)
- 收藏
- 关注
原创 hive 客户端结果乱码
insert overwrite table lobehaviour_daily_keep partition (part) select dp_id, buyer_nick, created, (case when sum(trade_tidcount)>0 then created else null end) as trade_created, sum(trade_tidc
2014-02-26 17:57:56 2751
原创 python 时间
import datetimenow = datetime.datetime.now()printprint "Current date and time using str method of datetime object:"print str(now)printprint "Current date and time using instance attributes:"
2014-02-26 17:00:23 802
原创 maven 的粗了解
在setting.xml中,设置默认的repository目录。 E:/eclipseMyLib/repositoryeclipse中:
2014-02-24 15:22:44 659
原创 hive udaf 返回复杂类型
package com.hive.customertag;import java.util.ArrayList;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache
2014-02-17 16:34:39 5727
转载 hive 高级结构
•array类型访问: A[n]•map类型访问: M[key]•struct类型访问: S.x• array 类型访问 : A[n]语法: A[n]操作类型: A为array类型,n为int类型说明:返回数组A中的第n个变量值。数组的起始下标为0。比如,A是个值为['foo', 'bar']的数组类型,那么A[0]将返回'foo',而A[1
2014-02-17 10:25:17 802
转载 Java日期时间使用总结
原文地址Java日期时间使用总结 一、Java中的日期概述 日期在Java中是一块非常复杂的内容,对于一个日期在不同的语言国别环境中,日期的国际化,日期和时间之间的转换,日期的加减运算,日期的展示格式都是非常复杂的问题。 在Java中,操作日期主要涉及到一下几个类: 1、java.util.Date 类 Date 表示特定的瞬间,精
2014-02-14 14:18:37 891
转载 java正则
众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配
2014-02-14 11:30:34 669
原创 hive 细节测试
hive> select * from test_1; OK11NULL2Time taken: 0.064 secondsselect count(distinct id) from test_1;2
2014-02-13 10:56:53 555
转载 Mysql日期和时间函数大全
原文对于每个类型拥有的值范围以及并且指定日期何时间值的有效格式的描述见7.3.6 日期和时间类型。 这里是一个使用日期函数的例子。下面的查询选择了所有记录,其date_col的值是在最后30天以内: mysql> SELECT something FROM table WHERE TO_DAYS(NOW()) - TO_DAYS(date_col) select DAY
2014-01-08 15:30:03 1034
原创 关联规则学习
主要的指标包括:支持度support,置信度confidence,提升度lift。对于一个二项规则例如“A→B”,支持度是指A与B同时出现的概率,即P(A B);置信度是B关于A的条件概率,即P(B | A);提升度是B的概率的提升,即P(B | A) / P(B)。频繁项集:闭集极大频繁项集apriori算法:
2014-01-03 16:23:14 966
原创 logistic回归学习
logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法可解决的问题: 因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。因变量的类型:可为连续变量、等级变量、分类变量。适用性两元因变量的logistic回归模型方程讲解一个自变量与Y
2013-12-30 16:11:54 1528
转载 Mysql group by top N的问题
http://sqlfiddle.com/#!2/4c0a5/32>>>>> 建表create table mytable( person varchar(10), `group` int, age int);insert into mytable values('Bob', 1, 32),('Jill', 1, 34),('Shawn', 1,
2013-12-13 14:53:44 6061
原创 hive 语法错误 小节
FAILED: Error in semantic analysis: DISTINCT on different columns not supported with skew in data
2013-12-07 13:26:30 1460
原创 hive 正则
case when length(regexp_extract(receiver_mobile,"^(1(3[4-9]|4[7]|5[012789]|8[23478])\\d{8})$",1))!=0 then "福建移动"
2013-12-07 10:17:29 792
原创 计算广告-百度沙龙
打通线上线下acookies记录上网行广告支撑互联网的存在正确的事情就是做对用户和网站都有用的事广告:广、快、准GSP拍卖基尼系数:稳定性(大小广告组博弈)从经济学的模型定理 点击作弊竞价系统点击率(CTR)预估(二分类)大型线性logistic Regression时效性稀疏矩阵深度神经网络模型:语音
2013-12-03 21:44:27 727
原创 御膳房交流
产品的各环节打通是很重要的,离线在线要结合,买了还买如果无法转化为生产力,就没什么意思了。精准营销数据可视化也许比分析更重要推荐系统独立于数据挖掘数据源不在一起不好解决集团方面:成功案例、uv
2013-12-03 21:33:40 858
原创 与人为善
20131127今天和人争论了2次,太不应该了.一次是同事说他比我聪明1千倍,直接惹火我了.另一次也是这个同事,说我一定搞错了一件事情,结果是他错了.其实不应该生气的,素质问题
2013-11-27 20:31:39 598
原创 olap的几个细节
1: 关于维度表和事实表join不到的哪些记录是直接不分析的.也就是所有的结果是维度表left join的结果.2: mondrian对内连表的处理为::它是这种方式生成内连表的
2013-11-27 19:47:28 693
原创 sql 几个细节
SELECTa.`title`,a.`cid`,a.`cid_name`,a.`parent_cid`,a.`parent_cid_name`,a.`list_time`,a.`price`,s.`nick`, s.`title` as shop_title,s.`cid` as shop_title,s.`type`,p.plot_type,p.plot_type_name,d.`year`,d
2013-11-27 15:37:54 536
原创 mondrian schema学习过程
Degenerate dimensionsaggruate 的用处,你妹的defualtmesure 的用处
2013-11-20 11:26:42 3754
原创 解决问题的思路
saiku的中文显示有问题:首先一个问题的表现为:同样的内容改为英文标识就能显示,改为中文就不可以。查看后台sql也是不同的。sql中包含了in()。推断是编码的问题:但是我对连接数据库指定udf8的选项不是很了解,只知道有这么回事,同事经验多,就定位到了这个问题是数据库链接的问题。问题的另一个表现为:当指定查询为all时,中英文都是可以的。查看后台sql,没有In这时,把
2013-11-19 22:45:13 1118 1
原创 love to seven year
灵感:http://chen.yi.bo.blog.163.com/blog/static/150621109201041011419819/http://cos.name/cn/topic/101643http://cos.name/2012/02/valentines-gift-by-using-r/http://yanshuo.name/cn/2013/08/%E7%AB
2013-11-11 23:16:51 697
原创 olap系统思考
1:淘宝取数接口是不是一个事务,如果一面取一面写会不会有问题。2:淘宝接口取数 取下来后存储为文件还是存储的sql中。3:saiku与mondrian是如果联系的。mondrian负责去infobright里面写数据。saiku负责从infobright安装mondrian语法读数据。4: mondrian源码编译按照自己的要求修改
2013-11-06 16:57:47 1414
原创 saiku mondrian
Designing a star schema : doneLoading data from my OLTP database (MySQL) to my star database (MySQL too) : done with Pentaho Data IntegrationMaking a Mondrian XML description the cube : done with
2013-11-06 16:53:50 2764
原创 infobright 小节
Infobright有两个版本ICE和IEE,目前ICE的版本是3.3.1,支持64位Linux和32位windows。ICE不支持DML,也就是不支持insert、update等操作。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),
2013-11-06 16:38:56 1900
原创 雪花模型
当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时雪花模型举例,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。相比星型模型,雪花模型的特点是贴近业务,数据冗余较少,但由于表
2013-11-06 14:33:59 1327
原创 MYSQL登录错误:mysqladmin: connect to server at 'localhost' failed
一、mysql登录错误mysqladmin: connect to server at 'localhost' failederror: 'Access denied for user 'root'@'localhost' (using password: YES)'无法修改密码用 service mysqld stopmysqld_safe --ski
2013-11-04 19:58:04 28302
原创 infobright with chartio
Connecting a MySQL Database to Chartiohttps://chartio.com/docs/datasources/connections/mysql#connection-client-setup
2013-11-04 19:05:59 805
原创 etl olap
得到ETL的定义: 将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)MDX是一种和SQL类似的语言,它也可以用于查询、计算和定义一些元数据。只不过SQL是基于OLTP的,而MDX是基于OLAP的,也就是说,MDX是对多维数据进行查询的。和其它的OLAP语言不同,MDX并不完全是一种报告形式语言。但用MDX查询出来的结果仍然可以在客
2013-11-01 18:13:55 884
原创 各种工具
BIRT: 初识BIRT是一个Eclipse-based开放源代码报表系统,英文全称是Business Intelligence and Reporting Tools,商业智能和报表工具。pentaho:是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个 web serve
2013-11-01 17:28:12 736
原创 关于什么是数据分析
今天和老大交流,有种听君一席话,胜读10年书的感觉首先是数据处理的流程:数据抽取ETL->数据仓库DW->在线分析处理OLAP->前端展示数据分析和挖掘最重要的不是技术,而是你能不能正常的定义问题。用olap的方式理解数据处理的流程给你一个问题,用你的思路去解决:数据都是可以用维度和度量来定义的。
2013-10-31 22:54:58 839
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人