自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 用户行为属性分类的实现

对于一个网站来说,分析用户属性,并标记属性标签对后续用户的潜在价值开发是很有必要的。下边结合一些工作的经验谈谈自己的见解。一:首先用户的属性归类目的要明确,针对不同的目的用途归类应该分开。[b]自然属性:[/b]性别、年龄、归属地、职业。。。[b]偏好属性:[/b]购物狂、宅男、暴力。。。[b]粘着属性:[/b]回头客、常客、新客户、活跃分子。。。[b]活动属性...

2014-08-27 09:33:38 2651

pig将多对象按相同属性集合分组

[code="java"]--对event和clicks分别取出分组字段,整体属性字段包装起来。events = foreach events generate opxpid, client_id, TOTUPLE(*) as actual;clicks = foreach clicks generate opxpid, client_id, TOTUPLE(*) as actual;...

2014-08-26 11:29:18 155

ruby接收pig流式处理文件内容

大数据操作中涉及到数据清洗步奏还是用脚本处理比较方便,下边介绍一下pig加载hdfs文件后调用ruby脚本处理数据,再返回数据流至pig中处理的一个简单案例。注意:ruby的流式处理用到wukong这个gem包,相关下载:[url]https://github.com/mrflip/wukong[/url]pig中加载分布式文件调用ruby流式处理:[code="java"]...

2014-08-26 10:58:46 211

原创 ruby链接数据库创建类

[code="java"]ActiveRecord::Base.establish_connection(:adapter => "mysql2", :host => "", :username => "", :password => "", :database => "xmo", :encoding => "utf8")[/

2014-08-26 10:40:22 77

greenplum解决数组取交集问题

最近要用到一个数组合并取交集的功能。在网上查了一下postgrasql中intarray 模块能直接支持:[code="java"]--查找数组元素的交集mydb=> select array[1,2,3] & array[3,4,5]; ?column? ---------- {3}(1 row)[/code]安装intarray 模块:psql -d x...

2014-08-25 23:13:54 827

原创 PostgreSQL: 如何获取一维数组的相同元素并根据相似度排序

PostgreSQL: 如何获取一维数组的相同元素并根据相似度排序 2011-11-02 22:24:09| 分类: Postgres基础 |举报|字号 订阅 今天开发有个需求,表中有一个列为一维数组类型,现在需要找出表中具有相同元素的数据,描述起来可能有点费力,下面举个例子就明白了。一 需求演示--1.1测试表my...

2014-08-25 09:12:33 1314

rails缓存实例

给新闻添加页面缓存、以及更新时缓存清除:[code="java"]class NewsController < ApplicationController caches_page :show, :index cache_sweeper :news_sweeper, :only => [:create, :update, :destroy] def index ...

2014-08-24 22:36:29 128

原创 PostgreSQL的ARRAY_AGG函数与unnest函数

PostgreSQL的ARRAY_AGG函数是用来连接到一个数组中的输入值,包括空。要了解函数ARRAY_AGG,考虑表COMPANY 记录如下:testdb# select * from COMPANY; id | name | age | address | salary----+-------+-----+-----------+-------- 1 | ...

2014-08-22 21:43:17 5184

原创 Mysql coalesce()函数认识和用法

Mysql coalesce()函数认识和用法 coalesce()解释:返回参数中的第一个非空表达式(从左向右); 鉴于在mysql中没有nvl()函数, 我们用coalesce()来代替。 coalesce相比nvl优点是,coalesce中参数可以有多个,而nvl()中参数就只有两个。 当然,在oracle中也可以使用 case when....then.....

2014-08-21 17:52:48 104

pig过滤A表中有B表中无的数据实例

[code="java"]--加载数据文件events_raw_short = load '$EVT_RECENT_FILES' using PigStorage('\u0001') as ( id:chararray, event_id:int, valid_flag:int);--时间过滤events_raw_short = filter events_ra...

2014-08-20 18:27:07 150

原创 列式存储处理

下面以GBase 8a分析型数据库为例,描述列存储对数据存储与管理的作用。面对海量数据分析的 I/O 瓶颈,GBase 8a 把表数据按列的方式存储,其优势体现在以下几个方面。不读取无效数据:降低 I/O 开销,同时提高每次 I/O 的效率,从而大大提高查询性能。查询语句只从磁盘上读取所需要的列,其他列的数据是不需要读取的。例如,有两张表,每张表100GB 且有100 列,大多数查询只...

2014-08-20 18:07:31 103

原创 列式存储处理

下面以GBase 8a分析型数据库为例,描述列存储对数据存储与管理的作用。面对海量数据分析的 I/O 瓶颈,GBase 8a 把表数据按列的方式存储,其优势体现在以下几个方面。不读取无效数据:降低 I/O 开销,同时提高每次 I/O 的效率,从而大大提高查询性能。查询语句只从磁盘上读取所需要的列,其他列的数据是不需要读取的。例如,有两张表,每张表100GB 且有100 列,大多数查询只...

2014-08-20 18:04:30 211

原创 HTML5 data-* 自定义属性

HTML5 data-* 自定义属性在jQuery的attr与prop提到过在IE9之前版本中如果使用property不当会造成内存泄露问题,而且关于Attribute和Property的区别也让人十分头痛,在HTML5中添加了data-*的方式来自定义属性,所谓data-*实际上上就是data-前缀加上自定义的属性名,使用这样的结构可以进行数据存放。使用data-*可以解决自定义属性混乱无管...

2014-08-20 09:39:18 101

原创 伪基站短信欺诈

前些日子去丽江旅游,遇到一件奇怪的事情,让我感觉个人隐私的泄漏速度实在太快了,而技术的发展如果用在歪路上,是非常可怕的事情。  丽江旅游的一个主要景点就是丽江古城,到了丽江后,当天下午就去丽江古城闲逛,这时候忽然手机收到短信,打开一看,是介绍丽江旅行社以及旅游线路的广告,而且之后又有类似的好几条短信发到我手机上,这令我感到非常疑惑,为什么我才到丽江一天,就有当地信息的广告短信发到我手机,如...

2014-08-19 13:24:57 196

原创 微博的广告商业模式

国内的新浪微博等平台一直在探索微博的商业模式,做为中国最火爆的社交网络产品,微博聚集了大量用户,但如何通过微博盈利却是令人困惑的事情。  新浪微博这个社交网络广受欢迎,但目前为止还未实现盈利,在新浪微博成本构成结构中,除了营销开支,大部分都是固定成本。随着用户数量持续增长,新浪还在不断增加基础架构、网络设备等投入。因此,新浪通过微博服务赚钱的能力对该公司的前途至关重要。新浪早期...

2014-08-19 12:25:28 732

原创 腾讯广告产品布局研究

腾讯广告产品布局研究 by 牛 国柱 • 2013/06/07 • 网络广告 • 15 Comments致谢:由于能力不足,对腾讯广告产品的分析漏掉了腾讯搜索广告推广平台及SNSWIN平台,现已修正。在此非常感谢指出错误的朋友,非常非常感谢!在了解腾讯的广告产品之前,有必要了解一下腾讯的业务结构。在2012年5月,腾讯对业务结构进行了重组,将原有的业务系统制(Business Un...

2014-08-18 18:12:47 338

原创 rails下修改http头(http header)

rails下修改http头(http header)博客分类: Ruby & RailsRailsRubyRackExcel 其实就是修改response中一个叫做headers的Hash. 至于header中可以设置什么值,请参考http header的参数. Ruby代码 收藏代码# 比如对一个非法的请求进行提示 5 秒后,自动跳转到网站的首页 res...

2014-08-18 10:37:32 588

原创 互联网广告计费方式介绍

互联网广告计费方式介绍 by 牛 国柱 • 2012/03/17 • 网络广告 • 12 Comments无论何种商品的售卖,除了价格外,还必须有价格的衡量标准(即价格的单位),比如iPad,3688元/台。从1994年互联网广告出现到现在,产生了很多不同模式的计费方式。我们来介绍目前最主流的几种计费方式:CPC(点击成本)即Cost-per-click,每点击成本。按照广...

2014-08-17 20:27:58 195

原创 Google的那些未来项目:业务核心逻辑在哪?

来自福布斯中文网>>科技>>信息>>Google的那些未来项目:业务核心逻辑在哪?本文作者贺嘉,TEDxZhuhai策展人,微信公众号"kuajie123" 肯尼亚农民通过Google搜索引擎找到治疗番茄种植虫害的方法;因印巴冲突失散的儿时玩伴回忆童年游玩场景而通过Google Earth搜索重新相聚。这些都是Google CEO Larry Page在TED2014大会播放...

2014-08-15 18:28:28 304

原创 关于内容相关广告定位

关于内容相关广告定位为了让您的广告在 Google 展示广告网络中的相应网站和网页上展示,我们提供了几种不同的定位方法,而内容相关广告定位就是其中之一。此定位方法会利用您所选择的关键字或主题为您的广告找到匹配的网站。1. 您选择关键字和主题内容相关广告定位首先要求您在展示广告网络广告系列的广告组中添加关键字或主题。关键字是指单个的词或短语,而主题是指网页的概念或中心主题(而不是...

2014-08-15 17:11:50 186

原创 我眼中的互联网思维

在微信朋友圈看了各公司的年会刷屏,几乎惨不忍睹,忍不住挥笔一文,告诉你真正的互联网公司,应该怎样用互联网思维,去改造这些天杀的刷屏年会。来源: 虎嗅我眼中的互联网思维:互联网是一张网,信息从源头发出以后,会无休无止地传播到各个脉络点,所以互联网具有动态的传播性,而非介于传统传播的点到为止;我认为互联网思维实际就是一种动态思维,凡是从动态的,全局的角度去考虑的思维行为,即可成为...

2014-08-15 15:03:03 155

原创 Nginx + ssl + Passenger 配置

Nginx + ssl + Passenger 配置博客分类: LinuxnginxRailsRubyAccess应用服务器 好久没写blog了。 今天搞了半天才搞定 Nginx + SSL的配置,主要是对这方面不太理解,导致一开始的思路就错了,我原以为在Nginx下的一个server里同时监听 80 和 443端口,就可以让服务器自动处理这两种不同链接,如: http:/...

2014-08-12 11:12:29 124

原创 PIG JOIN 的replicated后标写入内存用法

'''一句话总结:PIG 在2个表JOIN的时候,如果使用Using 'replicated' 会将后面的表分段读到内存中,从而加快JOIN的效率。但是如果load 到内存的数据超过JVM的限制就会报错==>java.lang.OutOfMemoryError: Java heap space内存溢出'''情节: 年前写了一个用户session处理的PIG脚本,各种...

2014-08-07 16:22:23 217

原创 hadoop的测试实例

启动 Hadoop 1.格式化文件系统 hadoop namenode –format 2. 启动hadoop 启动关闭所有服务 start-all.sh/stop-all.sh 启动关闭HDFS: start-dfs.sh/stop-dfs.sh 启动关闭MapReduce: start-mapred.sh/stop-mapred.sh...

2014-08-07 13:04:26 180

原创 ruby的类Google Map/Reduce框架

Skynet --- ruby的类Google Map/Reduce框架转发来源:http://robbin.iteye.com/blog/199257Skynet是一个很响亮的名字,因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。 Goog...

2014-08-06 10:08:07 102

原创 sqoop常用命令

sqoop常用命令2013-12-12 20:08 793人阅读 评论(0) 收藏 举报目录(?)[+]1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 000000 2、连接mysql并列出数据库中的表s...

2014-08-06 10:04:47 158 1

原创 转载: 关于ruby中 %Q, %q, %W, %w, %x, %r, %s 的用法

[Ruby]转载: 关于ruby中 %Q, %q, %W, %w, %x, %r, %s 的用法单引号内的内容,ruby会原样输出双引号内的内容,ruby会解析我们看个简单的例子,针对字符串 #{foo}test 我们分别用单引号核双引号操作'#{foo}test' => "\#{foo}test"  "#{foo}test"...

2014-08-05 16:13:47 543

原创 Routes中:new, :collection和:member的区别

Routes中:new, :collection和:member的区别九 13th, 2011 发表评论 | TrackbackRESTful风格的路由动词默认有7个(分别为:index, show, create, new, edit, update, destroy)。有时我们需要自定义路由,这时就要用到:on参数。:on参数有三种取值,分别为collection,member,new...

2014-08-05 16:10:49 73

原创 raise-Ruby 异常处理(转载)

Ruby 异常处理(转载)异常处理是开发过程中经常要面对的问题,基本所有高级语言都有自己的异常处理系统,ruby也不例外,而且使用起来也非常简单。 ruby中异常的抛出是使用的raise方法,记住哦,这是个方法,由ruby Kernel提供的,而不是关键字,同时ruby也为这个方法提供了一个别名fail,可以用fail代替raise,抛出异常的例子如下: Ruby代码rai...

2014-08-05 15:06:03 1013

原创 spark导读

类Hadoop的高效分布式计算系统Spark日期:2013-9-11 作者: jzou 我要评论 大 | 中 | 小 投稿 打印导读:本文对Spark进行了不厌其详的介绍,从比较优势到应用运行,再到对RDD的详解。多种模式下的编程语言也都罗列其中。关键词:Spark 分布式计算系统 Spark是UC Berkeley AMP lab所开源的类Hadoop MapRedu...

2014-08-03 19:24:02 139

原创 Spark - 大数据Big Data处理框架

Spark - 大数据Big Data处理框架 (2014-01-26 20:38:54)转载▼标签: 大数据行业信息 it Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代...

2014-08-03 08:32:53 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除