自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 数据类型背锅记-filter与where条件

需求背景:对hive表中的某一列进行函数处理转化成分数,然后根据分数阈值进行数据筛选自定义函数如下,实现功能就是提取字段里的概率值:def get_chain_score(P): p = str(p).split(',')[0].strip('[') if 'E' in p: return 0 else: return float(p) sq...

2018-04-25 17:25:53 1192 1

原创 spark-ml 逻辑回归使用记录

    最近做项目需要用一下逻辑回归模型,一开始用了spark的基于RDD的mlib,写了一个版本的脚本,后来看官方文档发现mlib目前处于维护状态,主推的还是基于Dataframe的ml,于是重头开始写基于ml的模型脚本,哎,坚强地继续搬砖    由于中间有个指标是事件类型,属于字符串类型,需要做单独处理,这里利用自带的StringIndexer函数, 主要是根据事件类型出现频次来确定数值,ha...

2018-03-22 21:38:05 1549 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除