自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

放飞我心

专注、平和、宁静

  • 博客(168)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive 客户端结果乱码

insert overwrite table lobehaviour_daily_keep partition (part) select dp_id, buyer_nick, created, (case when sum(trade_tidcount)>0 then created else null end) as trade_created, sum(trade_tidc

2014-02-26 17:57:56 2712

原创 python 时间

import datetimenow = datetime.datetime.now()printprint "Current date and time using str method of datetime object:"print str(now)printprint "Current date and time using instance attributes:"

2014-02-26 17:00:23 789

原创 maven 的粗了解

在setting.xml中,设置默认的repository目录。 E:/eclipseMyLib/repositoryeclipse中:

2014-02-24 15:22:44 645

原创 java 复制

java.util.list.addAll()方法同样是浅复制

2014-02-17 17:40:43 639

原创 hive udaf 返回复杂类型

package com.hive.customertag;import java.util.ArrayList;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache

2014-02-17 16:34:39 5701

转载 hive 高级结构

•array类型访问: A[n]•map类型访问: M[key]•struct类型访问: S.x• array 类型访问 : A[n]语法: A[n]操作类型: A为array类型,n为int类型说明:返回数组A中的第n个变量值。数组的起始下标为0。比如,A是个值为['foo', 'bar']的数组类型,那么A[0]将返回'foo',而A[1

2014-02-17 10:25:17 786

转载 Java日期时间使用总结

原文地址Java日期时间使用总结 一、Java中的日期概述 日期在Java中是一块非常复杂的内容,对于一个日期在不同的语言国别环境中,日期的国际化,日期和时间之间的转换,日期的加减运算,日期的展示格式都是非常复杂的问题。 在Java中,操作日期主要涉及到一下几个类: 1、java.util.Date        类 Date 表示特定的瞬间,精

2014-02-14 14:18:37 882

转载 java正则

众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配

2014-02-14 11:30:34 661

原创 hive 细节测试

hive> select * from test_1;                            OK11NULL2Time taken: 0.064 secondsselect count(distinct id) from test_1;2

2014-02-13 10:56:53 547

原创 关于本周,上周,本月,上月的实现

周会涉及到跨年,但是月不会跨年.每周的天数的固定的,但是月的天数是不固定的.

2014-01-10 16:13:09 593

转载 Mysql日期和时间函数大全

原文对于每个类型拥有的值范围以及并且指定日期何时间值的有效格式的描述见7.3.6 日期和时间类型。 这里是一个使用日期函数的例子。下面的查询选择了所有记录,其date_col的值是在最后30天以内: mysql> SELECT something FROM table WHERE TO_DAYS(NOW()) - TO_DAYS(date_col) select DAY

2014-01-08 15:30:03 976

原创 关联规则学习

主要的指标包括:支持度support,置信度confidence,提升度lift。对于一个二项规则例如“A→B”,支持度是指A与B同时出现的概率,即P(A B);置信度是B关于A的条件概率,即P(B | A);提升度是B的概率的提升,即P(B | A) / P(B)。频繁项集:闭集极大频繁项集apriori算法:

2014-01-03 16:23:14 900

原创 logistic回归学习

logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法可解决的问题:     因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。因变量的类型:可为连续变量、等级变量、分类变量。适用性两元因变量的logistic回归模型方程讲解一个自变量与Y

2013-12-30 16:11:54 1481

转载 Mysql group by top N的问题

http://sqlfiddle.com/#!2/4c0a5/32>>>>> 建表create table mytable(  person varchar(10),  `group` int,  age int);insert into mytable values('Bob', 1, 32),('Jill', 1, 34),('Shawn', 1,

2013-12-13 14:53:44 6040

原创 hive 语法错误 小节

FAILED: Error in semantic analysis: DISTINCT on different columns not supported with skew in data

2013-12-07 13:26:30 1426

原创 hive 正则

case when length(regexp_extract(receiver_mobile,"^(1(3[4-9]|4[7]|5[012789]|8[23478])\\d{8})$",1))!=0 then "福建移动"

2013-12-07 10:17:29 775

原创 计算广告-百度沙龙

打通线上线下acookies记录上网行广告支撑互联网的存在正确的事情就是做对用户和网站都有用的事广告:广、快、准GSP拍卖基尼系数:稳定性(大小广告组博弈)从经济学的模型定理 点击作弊竞价系统点击率(CTR)预估(二分类)大型线性logistic Regression时效性稀疏矩阵深度神经网络模型:语音

2013-12-03 21:44:27 716

原创 御膳房交流

产品的各环节打通是很重要的,离线在线要结合,买了还买如果无法转化为生产力,就没什么意思了。精准营销数据可视化也许比分析更重要推荐系统独立于数据挖掘数据源不在一起不好解决集团方面:成功案例、uv

2013-12-03 21:33:40 835

原创 novicat

导出时选择xls格式就会很慢,要选择txt或者csv

2013-12-03 15:55:16 996

原创 excel 小节

===== excel固定表头“窗口”=>“冻结窗格”=====

2013-12-02 18:34:21 768

原创 olap数据测试

只要是汇总和level对不上就是维度表主键有重复.

2013-12-02 18:01:03 1129

原创 学会推动事情的进展

感觉产品经理的思路好混乱,下次不能忍了

2013-11-27 20:32:41 631

原创 与人为善

20131127今天和人争论了2次,太不应该了.一次是同事说他比我聪明1千倍,直接惹火我了.另一次也是这个同事,说我一定搞错了一件事情,结果是他错了.其实不应该生气的,素质问题

2013-11-27 20:31:39 584

原创 思考问题的角度

今天早上讨论测试的问题

2013-11-27 19:53:07 655

原创 olap的几个细节

1: 关于维度表和事实表join不到的哪些记录是直接不分析的.也就是所有的结果是维度表left join的结果.2: mondrian对内连表的处理为::它是这种方式生成内连表的

2013-11-27 19:47:28 687

原创 项目考虑

编码问题,压缩问题

2013-11-27 18:47:35 494

原创 sql 几个细节

SELECTa.`title`,a.`cid`,a.`cid_name`,a.`parent_cid`,a.`parent_cid_name`,a.`list_time`,a.`price`,s.`nick`, s.`title` as shop_title,s.`cid` as shop_title,s.`type`,p.plot_type,p.plot_type_name,d.`year`,d

2013-11-27 15:37:54 526

原创 mondrian schema学习过程

Degenerate dimensionsaggruate 的用处,你妹的defualtmesure 的用处

2013-11-20 11:26:42 3736

原创 解决问题的思路

saiku的中文显示有问题:首先一个问题的表现为:同样的内容改为英文标识就能显示,改为中文就不可以。查看后台sql也是不同的。sql中包含了in()。推断是编码的问题:但是我对连接数据库指定udf8的选项不是很了解,只知道有这么回事,同事经验多,就定位到了这个问题是数据库链接的问题。问题的另一个表现为:当指定查询为all时,中英文都是可以的。查看后台sql,没有In这时,把

2013-11-19 22:45:13 1104 1

原创 love to seven year

灵感:http://chen.yi.bo.blog.163.com/blog/static/150621109201041011419819/http://cos.name/cn/topic/101643http://cos.name/2012/02/valentines-gift-by-using-r/http://yanshuo.name/cn/2013/08/%E7%AB

2013-11-11 23:16:51 686

原创 olap系统思考

1:淘宝取数接口是不是一个事务,如果一面取一面写会不会有问题。2:淘宝接口取数 取下来后存储为文件还是存储的sql中。3:saiku与mondrian是如果联系的。mondrian负责去infobright里面写数据。saiku负责从infobright安装mondrian语法读数据。4: mondrian源码编译按照自己的要求修改

2013-11-06 16:57:47 1408

原创 saiku mondrian

Designing a star schema : doneLoading data from my OLTP database (MySQL) to my star database (MySQL too) : done with Pentaho Data IntegrationMaking a Mondrian XML description the cube : done with

2013-11-06 16:53:50 2749

原创 infobright 小节

Infobright有两个版本ICE和IEE,目前ICE的版本是3.3.1,支持64位Linux和32位windows。ICE不支持DML,也就是不支持insert、update等操作。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),

2013-11-06 16:38:56 1884

原创 雪花模型

当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时雪花模型举例,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。相比星型模型,雪花模型的特点是贴近业务,数据冗余较少,但由于表

2013-11-06 14:33:59 1302

原创 模型指标

1 可信度2 准确率3 提升度4 覆盖率5 查全率

2013-11-05 17:09:44 859

原创 MYSQL登录错误:mysqladmin: connect to server at 'localhost' failed

一、mysql登录错误mysqladmin: connect to server at 'localhost' failederror: 'Access denied for user 'root'@'localhost' (using password: YES)'无法修改密码用 service mysqld stopmysqld_safe --ski

2013-11-04 19:58:04 28122

原创 infobright with chartio

Connecting a MySQL Database to Chartiohttps://chartio.com/docs/datasources/connections/mysql#connection-client-setup

2013-11-04 19:05:59 797

原创 etl olap

得到ETL的定义:    将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)MDX是一种和SQL类似的语言,它也可以用于查询、计算和定义一些元数据。只不过SQL是基于OLTP的,而MDX是基于OLAP的,也就是说,MDX是对多维数据进行查询的。和其它的OLAP语言不同,MDX并不完全是一种报告形式语言。但用MDX查询出来的结果仍然可以在客

2013-11-01 18:13:55 871

原创 各种工具

BIRT: 初识BIRT是一个Eclipse-based开放源代码报表系统,英文全称是Business Intelligence and Reporting Tools,商业智能和报表工具。pentaho:是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个      web serve

2013-11-01 17:28:12 725

原创 关于什么是数据分析

今天和老大交流,有种听君一席话,胜读10年书的感觉首先是数据处理的流程:数据抽取ETL->数据仓库DW->在线分析处理OLAP->前端展示数据分析和挖掘最重要的不是技术,而是你能不能正常的定义问题。用olap的方式理解数据处理的流程给你一个问题,用你的思路去解决:数据都是可以用维度和度量来定义的。

2013-10-31 22:54:58 832

SdfTextInputFormat.java

实现了mapreduce框架中,输入文件按特定标志如('$')分片处理。

2012-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除