- 博客(17)
- 收藏
- 关注
原创 Shell脚本获取格式化日期与时间总结
Shell脚本获取格式化日期与时间总结,Linux的bash脚本去时间格式的支持超出了我的预想,支持多种格式的变化与输出。甚至比java的api还要方便。
2015-12-24 15:59:35 12938 1
原创 Spark-SQL优化案例---股票点击实时排行
Spark-SQL优化案例---股票点击实时排行,需求每天股票点击统计排列统计、每小时股票统计排列统计,及天与小时的环比变化。
2015-12-23 15:29:32 2147
原创 hive使用技巧(三)——巧用group by实现去重统计
网站统计中常用的指标,pv ,uv , 独立IP,登录用户等,都涉及去重操作。全年的统计,PV超过100亿以上。即使是简单的去重统计也非常困
2015-12-22 16:53:49 35818 1
原创 Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。
2015-12-15 14:18:40 8962 1
原创 Spark-SQL介绍及优化策略
目前我们在使用SQL引擎时,月级的、天级的、小时级的查询都转到了Spark-SQL,速度及稳定性都有较好的表现。以下对Spark-SQL介绍及优化策略进行总结:
2015-12-14 14:01:44 1747
原创 Spark-Streaming之window滑动窗口应用
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。
2015-12-04 18:36:16 10243 2
原创 Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据,前端数据通过 kafka队列传递,外层还有flume的实时收集。
2015-12-03 14:54:05 10628 1
原创 maven打war包加入第三方依赖包
maven打war包加入第三方依赖包,通常mvn工程的依赖包,在pom.xml会给出,但是有的包仓库里是没有的,或者支持的版本不相符。
2015-12-03 14:43:26 1938
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人