- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 spark计算dataframe中两列的相关系数
背景:现在有张表,表中数据 imei,height,weight。计算weight和height的相关性: # 皮尔森、斯皮尔曼(pearson spearman)计算相关系数 import org.apache.spark.mllib.stat.Statistics val df1 = sql(""" select new_rank_level,old_rank_level from ad_...
2019-07-29 21:22:45 5528
原创 使用python的pyquery简单爬取数据demo
#!/bin/env python #_*_ coding: utf-8 _*_ from pyquery import PyQuery as pq import time import random def get_appinfo_from_yyb(app_pack,storenum): url=xxxxxxxxxxxxxx data = pq(url) if storenum==...
2019-07-19 09:52:00 442
原创 git实操
一、解决git冲突 1.冲突出现的原因 step1 员工B先修改了文件,把A修改成了A,B; step2 员工B将修改的文件上传到了私有库; step3 员工B将私有库的文件PR到了公共库master分支; step4 员工A在修改本地库代码时文件还是A,然后把A修改成了A,C; step5 员工A将修改的文件上传到了私有库; step6 员工A将私有库的文件PR到公共库master...
2019-07-02 19:46:23 355
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人