- 博客(2)
- 收藏
- 关注
原创 数据类型背锅记-filter与where条件
需求背景:对hive表中的某一列进行函数处理转化成分数,然后根据分数阈值进行数据筛选自定义函数如下,实现功能就是提取字段里的概率值:def get_chain_score(P): p = str(p).split(',')[0].strip('[') if 'E' in p: return 0 else: return float(p) sq...
2018-04-25 17:25:53 1192 1
原创 spark-ml 逻辑回归使用记录
最近做项目需要用一下逻辑回归模型,一开始用了spark的基于RDD的mlib,写了一个版本的脚本,后来看官方文档发现mlib目前处于维护状态,主推的还是基于Dataframe的ml,于是重头开始写基于ml的模型脚本,哎,坚强地继续搬砖 由于中间有个指标是事件类型,属于字符串类型,需要做单独处理,这里利用自带的StringIndexer函数, 主要是根据事件类型出现频次来确定数值,ha...
2018-03-22 21:38:05 1549 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人