- 博客(3)
- 收藏
- 关注
原创 spark中tasks数量的设置
spark中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。 我的第一个query程序,有200个task,我改成了50个,节约了1s左右。 参数可以通过spark_home/conf/spark-default.
2016-07-24 14:21:01
20938
原创 pandas中的resample的参数
用resample可以很容易的筛选dataframe格式的数据的时间戳例如:dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 8), datetime(2011, 1, 9), datetime(2011, 1, 10), datetime(2011, 1, 12
2016-07-18 20:25:19
9025
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人