白银大法师-CSDN博客

原创 spark实战：对日志进行查询

spark实战：对日志进行查询

2016-07-29 22:58:47 628

原创 spark中tasks数量的设置

spark中有partition的概念，每个partition都会对应一个task，task越多，在处理大规模数据的时候，就会越有效率。不过task并不是越多越好，如果平时测试，或者数据量没有那么大，则没有必要task数量太多。我的第一个query程序，有200个task，我改成了50个，节约了1s左右。参数可以通过spark_home/conf/spark-default.

2016-07-24 14:21:01 20938

原创 pandas中的resample的参数

用resample可以很容易的筛选dataframe格式的数据的时间戳例如:dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 8), datetime(2011, 1, 9), datetime(2011, 1, 10), datetime(2011, 1, 12

2016-07-18 20:25:19 9025

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人