---大数据
小小她爹
If you are stuck,you have to work your own way out(如果你陷入困境,就要自己找解决办法)。
展开
-
一个场景测试hive的sql能力
1、场景app上一个用户的登录讯息,包括:uid vist_time其中vist_time是精确到时分秒的记录2、问题问题1:每个用户在每个月的访问次数问题2:每个用户在每个月中天访问最高次数,比如:一月,用户A,day1访问2次, 用户A,day2访问3词,那么输出为:用户A 一月 3..........问题3:每个用户在每个月,连续登陆最大次数问题4:如何计算用户登录的7日留存2、总结以上的问题循序渐进,...原创 2021-05-14 14:21:51 · 205 阅读 · 1 评论 -
DAG vs. MPP vs MR
整理总结大数据最新的一些思想,flink storm spark之间的关系原创 2018-03-21 22:58:37 · 2047 阅读 · 1 评论 -
PaaS架构解析
pass平台设计文章一篇转载 2018-03-22 22:46:06 · 23891 阅读 · 0 评论 -
关于数据科学家的价值
关于数据科学家一哥们经典的语录原创 2018-03-04 22:08:27 · 329 阅读 · 0 评论 -
hadoop on ceph
hadoop on ceph调研原创 2018-02-25 20:46:11 · 2800 阅读 · 1 评论 -
如何按秒统计对外服务最大并发请求量
如何按秒统计对外服务最大并发请求量原创 2017-12-14 14:53:40 · 1950 阅读 · 0 评论 -
Hbase表设计
典型的数据库一对一,一对多,多对多映射以及二级索引如何组织原创 2017-02-16 09:49:13 · 544 阅读 · 0 评论 -
官方Spark Programming Guide学习心得(V2.1.0)
spark官方guide学习总结,文档写的真简洁。原创 2017-03-10 22:19:37 · 607 阅读 · 0 评论 -
数据仓库相关开源技术
数据分析平台相关开源技术一览表原创 2017-08-22 22:45:06 · 1001 阅读 · 0 评论 -
spark基本概念
转一篇文章,有hadoop基础看起来很快能懂.转载 2017-03-10 22:35:10 · 564 阅读 · 0 评论 -
lucene和ElasticSearch基本概念
lucene和ElasticSearch基本概念原创 2016-07-04 18:37:48 · 4333 阅读 · 0 评论 -
mysq集群原理之Galera replication
网上介绍的都自己感觉比较乱,总结了下,比较简洁介绍Galera replication for MySQL的实现方案原创 2016-05-17 18:52:21 · 5062 阅读 · 0 评论 -
用消息队列和消息应用状态表来消除分布式事务
转载:http://csrd.aliapp.com/?p=671#more-671由于数据量的巨大,大部分Web应用都需要部署很多个数据库实例。这样,有些用户操作就可能需要去修改多个数据库实例中的数据。传统的解决方法是使用分布式事务保证数据的全局一致性,经典的方法是使用两阶段提交协议。长期以来,分布式事务提供的优雅的全局ACID保证麻醉了应用开发者的心灵,很多人都不敢越雷池一步,想像没有分布式事务的转载 2016-03-22 20:07:50 · 759 阅读 · 0 评论