大数据行业信息
文章平均质量分 59
jamst8522127
这个作者很懒,什么都没留下…
展开
-
Spark - 大数据Big Data处理框架
Spark - 大数据Big Data处理框架 (2014-01-26 20:38:54)转载▼ 标签: 大数据行业信息 it Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。 Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代...原创 2014-08-03 08:32:53 · 129 阅读 · 0 评论 -
批量日志数据库外表写入
#创建外链表映射日志文件 audience_attributes_path = "gphdfs://xxx/audience_attributes/#{batch_id}" create_sql =2015-06-15 17:15:48 · 175 阅读 · 0 评论 -
hadoop实时查询
Impala+Trevni 很有希望和 Google 的 Dremel 处于同一个级别 http://blog.jobbole.com/31137/ http://blog.jobbole.com/29561/ http://www.csdn.net/article/2012-10-25/2811151-Cloudera-Real-Time-Hadoop-Impala 使用Sto...2014-09-13 09:38:48 · 1225 阅读 · 0 评论 -
Hadoop的实时分析之路
随着大数据[注]时代的到来,Hadoop声名鹊起,这个开源的分布式处理架构似乎可以处理大数据的任何问题。但长期以来,包括即席查询在内的实时分析一直是Hadoop的痛点。 Hadoop可以处理大规模数据集,包括结构化数据、非结构化数据和半结构化数据,但Hadoop的是按照批量处理系统来设计的,这也就限制了它的反应速度。 数字广告公司Rubicon Project负责技术运营的副总裁And ...原创 2014-09-13 11:33:31 · 542 阅读 · 0 评论 -
Hive 中内部表与外部表的区别与创建方法
先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 需要注意的是传统数据库对表数据验证是 schema o...原创 2014-09-16 17:41:01 · 113 阅读 · 0 评论 -
在调用sql脚本时动态生成临时表处理
定义一张临时表,往里插数据,返回表名 [code="java"] temp_terms_table_name = insert_keywords_into_table(keywords, batch_id, audience_id) sql_array原创 2014-09-18 16:52:33 · 566 阅读 · 0 评论 -
SEM 自动化管理工具大起底(这其实是改写三个SEM优化问题的一部分)
我们常说的 SEM 包含了 SEO 和狭义 SEM (付费搜索)两个部分。尽管这两者的广告展示形式非常类似,都是通过广告投放和排名来实现的,操作上却存在巨大差异。对于 SEOer 来说,一两个牛人打天下是很常见的,SEO 服务商更是多如牛毛。相对来说,狭义 SEM 在技术上是一个远为复杂的系统,不是一两个聪明脑袋所能搞定的。在这个领域中吞噬了大部分广告消费的是一批批不断进化的自动优化工具及其背后的...原创 2014-09-24 10:18:42 · 708 阅读 · 0 评论 -
关于异步操作的汇总
随着互联网用户体验,和性能的要求,异步操作越来越凸显重要性。 所谓异步操作勉强理解为事件发生不在同一时间完成。结合一些自己用到的技术总结一下此类运用。 基于后台: [b]redis resque[/b] Resque是这样解决这些问题的: 后台任务的角色划分 其实从上面的问题已经可以看出,只靠一个消息队列是无法解决所有问题的,需要新的角色介入。在Resque中,一个后台任务被抽...2014-09-29 13:06:52 · 149 阅读 · 0 评论 -
网站回头客属性设置
人群分类实现: 每个客户可以自定义自己的目标人群计划。 一类是根据自定义的人群标签,另一类来自系统自有的兴趣群体标签。 自定义人群标签: 定义名称,定义人群相应event事件映射。 event数据获取: 在客户端安装js追踪代码,获取访问该页面的用户数据。在自定义用户标签的时候,根据与访问数据的映射,得到访问特定event事件属性的过滤,从而定义访客的属性标签。 ...2014-10-15 14:38:17 · 143 阅读 · 0 评论 -
用户行为属性分类的实现
对于一个网站来说,分析用户属性,并标记属性标签对后续用户的潜在价值开发是很有必要的。下边结合一些工作的经验谈谈自己的见解。 一:首先用户的属性归类目的要明确,针对不同的目的用途归类应该分开。 [b]自然属性:[/b] 性别、年龄、归属地、职业。。。 [b]偏好属性:[/b] 购物狂、宅男、暴力。。。 [b]粘着属性:[/b] 回头客、常客、新客户、活跃分子。。。 [b]活动属性...原创 2014-08-27 09:33:38 · 2649 阅读 · 0 评论 -
pig将多对象按相同属性集合分组
[code="java"] --对event和clicks分别取出分组字段,整体属性字段包装起来。 events = foreach events generate opxpid, client_id, TOTUPLE(*) as actual; clicks = foreach clicks generate opxpid, client_id, TOTUPLE(*) as actual;...2014-08-26 11:29:18 · 155 阅读 · 0 评论 -
spark导读
类Hadoop的高效分布式计算系统Spark 日期:2013-9-11 作者: jzou 我要评论 大 | 中 | 小 投稿 打印 导读:本文对Spark进行了不厌其详的介绍,从比较优势到应用运行,再到对RDD的详解。多种模式下的编程语言也都罗列其中。 关键词:Spark 分布式计算系统 Spark是UC Berkeley AMP lab所开源的类Hadoop MapRedu...原创 2014-08-03 19:24:02 · 139 阅读 · 0 评论 -
列式存储处理
下面以GBase 8a分析型数据库为例,描述列存储对数据存储与管理的作用。 面对海量数据分析的 I/O 瓶颈,GBase 8a 把表数据按列的方式存储,其优势体现在以下几个方面。 不读取无效数据:降低 I/O 开销,同时提高每次 I/O 的效率,从而大大提高查询性能。查询语句只从磁盘上读取所需要的列,其他列的数据是不需要读取的。例如,有两张表,每张表100GB 且有100 列,大多数查询只...原创 2014-08-20 18:04:30 · 210 阅读 · 0 评论 -
列式存储处理
下面以GBase 8a分析型数据库为例,描述列存储对数据存储与管理的作用。 面对海量数据分析的 I/O 瓶颈,GBase 8a 把表数据按列的方式存储,其优势体现在以下几个方面。 不读取无效数据:降低 I/O 开销,同时提高每次 I/O 的效率,从而大大提高查询性能。查询语句只从磁盘上读取所需要的列,其他列的数据是不需要读取的。例如,有两张表,每张表100GB 且有100 列,大多数查询只...原创 2014-08-20 18:07:31 · 103 阅读 · 0 评论 -
pig过滤A表中有B表中无的数据实例
[code="java"] --加载数据文件 events_raw_short = load '$EVT_RECENT_FILES' using PigStorage('\u0001') as ( id:chararray, event_id:int, valid_flag:int ); --时间过滤 events_raw_short = filter events_ra...2014-08-20 18:27:07 · 150 阅读 · 0 评论 -
PostgreSQL的ARRAY_AGG函数与unnest函数
PostgreSQL的ARRAY_AGG函数是用来连接到一个数组中的输入值,包括空。 要了解函数ARRAY_AGG,考虑表COMPANY 记录如下: testdb# select * from COMPANY; id | name | age | address | salary ----+-------+-----+-----------+-------- 1 | ...原创 2014-08-22 21:43:17 · 5180 阅读 · 0 评论 -
PostgreSQL: 如何获取一维数组的相同元素并根据相似度排序
PostgreSQL: 如何获取一维数组的相同元素并根据相似度排序 2011-11-02 22:24:09| 分类: Postgres基础 |举报|字号 订阅 今天开发有个需求,表中有一个列为一维数组类型,现在需要找出表中具有相同元素的数据,描述起来 可能有点费力,下面举个例子就明白了。 一 需求演示 --1.1测试表 my...原创 2014-08-25 09:12:33 · 1312 阅读 · 0 评论 -
greenplum解决数组取交集问题
最近要用到一个数组合并取交集的功能。 在网上查了一下postgrasql中intarray 模块能直接支持: [code="java"] --查找数组元素的交集 mydb=> select array[1,2,3] & array[3,4,5]; ?column? ---------- {3} (1 row) [/code] 安装intarray 模块:psql -d x...2014-08-25 23:13:54 · 826 阅读 · 0 评论 -
ruby接收pig流式处理文件内容
大数据操作中涉及到数据清洗步奏还是用脚本处理比较方便,下边介绍一下pig加载hdfs文件后调用ruby脚本处理数据,再返回数据流至pig中处理的一个简单案例。 注意:ruby的流式处理用到wukong这个gem包,相关下载: [url]https://github.com/mrflip/wukong[/url] pig中加载分布式文件调用ruby流式处理: [code="java"] ...2014-08-26 10:58:46 · 208 阅读 · 0 评论 -
PMP(Private Marketplace)
[url]http://morketing.cn/special-column-/2861[/url] [url]http://www.zhihu.com/question/26188653[/url] 在程序化购买中,媒体往往将难以直接售卖的长尾流量放到公开的Exchange中进行变现。而优质广告位仍是依赖直客销售。 造成这种情况的原因,一方面是在公开的...2015-11-06 17:06:30 · 344 阅读 · 0 评论