自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白银大法师的博客

在哪里跌倒,就在哪里趴着。

  • 博客(3)
  • 收藏
  • 关注

原创 spark实战:对日志进行查询

spark实战:对日志进行查询

2016-07-29 22:58:47 628

原创 spark中tasks数量的设置

spark中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。 我的第一个query程序,有200个task,我改成了50个,节约了1s左右。 参数可以通过spark_home/conf/spark-default.

2016-07-24 14:21:01 20938

原创 pandas中的resample的参数

用resample可以很容易的筛选dataframe格式的数据的时间戳例如:dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 8), datetime(2011, 1, 9), datetime(2011, 1, 10), datetime(2011, 1, 12

2016-07-18 20:25:19 9025

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除