spark
Daverain
怕什么真理无穷,进一寸有进一寸的欢喜。
展开
-
python实现spark-history-server监控
由于history-server服务器会经常出现自己挂掉的情况,用python写了一个自动重启的脚本,放在系统里用crontab定时,再也不用担心任务挂了,服务器也挂掉了。思路很简单,就是用ps指令检测进程,如果没有history-server,就把服务器拉起来。import sysimport commandsimport oscommand = "ps -ef|grep spa...原创 2018-09-10 19:27:32 · 758 阅读 · 0 评论 -
使用spark训练LR模型
最近在工作之余参加了一个CTR预估的比赛,CTR预估是一个成熟又经典的问题,工业界目前使用的主流方案仍然是LR+海量特征。趁着这一次比赛的机会,正好抱着学习的心态尝试着学习用spark集群来训练一下LR。在学校的时候大家训练模型一般都是用python+pandas+numpy+sklearn,这一套工具在单机的环境下非常的简单易学,但是面对海量数据或者高维稀疏矩阵的计算,就显得无能为力。相比之...原创 2018-09-19 19:25:28 · 6108 阅读 · 4 评论 -
spark.dataframe的一些常用操作(Scala)
前言说起dataframe,大家一般会首先想起pandas.dataframe。随着数据科学越来越火热,大部分同学都使用过python去进行一些数据科学的实践,也应该会对dataframe的简单易用颇有好感。然而pandas只能用于处理单机问题,面对工业级的海量数据处理和计算,就显得无能为力。spark作为分布式计算框架,在工业界占据了比较主流的地位。spark同样也提供了dataframe...原创 2018-10-01 01:59:26 · 16267 阅读 · 0 评论 -
HDFS坏块清除和修复
检测路径下是否有坏块:bin/hdfs fsck /删除路径下的坏块:bin/hdfs fsck / -delete修复坏块:hdfs debug recoverLease -path / -retries 5retries 为重试次数原创 2019-01-09 13:19:32 · 8841 阅读 · 3 评论 -
Spark之数据倾斜
前言对于一个算法工程师来说,Spark是一个非常常用的工具。对于使用过Spark的同学,对于数据倾斜的问题一定不会陌生。本文讲主要介绍Spark中的数据倾斜以及一些处理方案。啥是数据倾斜?这一切可能要从分布式计算系统说起,用最通俗的话来说,现在我们有一个任务,在一台电脑上跑要100个小时,于是我们灵光一现,我们整一百台不就行了?于是,我们得到 任务处理时间 = 100小时/100台电脑 ...原创 2019-08-21 22:21:54 · 278 阅读 · 0 评论