- 博客(3)
- 收藏
- 关注
原创 关于spark active jobs 卡死原因,求助
调整并行度为1000后,spark上出现大量的active jobs,并且始终不结束以前红圈处为默认200,执行后偶尔会出现active jobs 死掉的任务,改成1000是为了提升性能,从单个执行情况看比200要快50%,但是遇到了这个糟心的问题......最早的一波active jobs:点击详情,发现是first显示未执行结束:但是实际上已经执行结束了:查看各种材料,可能是由于内部监听的时序...
2018-06-22 17:25:50 2929
原创 本地安装python、pydev、setuptools、pip和Elasticsearch-py客户端方法总结
windows上安装python 获取安装包:python-2.7.9.amd64.rar解压后全程OK如果遇到安装报错,可在安装过程中先去勾选pip的安装安装完成后,添加环境变量安装setuptoolsSetuptools安装获取安装包:setuptools-26.1.1.zip解压到python的安装目录:在解压后的目录中执行:python setup.py installPip安装依赖se...
2018-06-21 09:32:02 994
原创 elasticsearch字段distinct去重后统计的几种方案和适用场景
为了实现类似等价的sql: SELECT COUNT(DISTINCT deviceID) FROM t_order_report; 为什么我要说类似等价呢? 因为从精确性、性能等角度还是存在很大的差别!前置条件,场景为: 用户可以通过时间、套餐类型、订单状态等等查询条件,过滤出满足条件的设备数信息 因此使用deviceID+各种限制条件 作...
2018-06-20 10:36:04 26027
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人