2018-2-4--周工作总结

今天立春了,今天是周日,没有加班,又到了该总结这一周工作的时候;这一周主要做了一个事情:就是准备前辈的训练数据,在这个过程中,用到了数据合并的技术,我的解决思路:将每个子表统一成相同字段结构,由于前辈又有新的需求,需要加一个uuid自动更新id索引的字段,所以一部分小的表就是通过collect之后,将子表一行一行读取出来,添加上uuid这个函数生成想要的索引字段;另一部分表由于数据量太大,大约有200多万行,因此不能直接在本地pycharm直接collect ,需要运用sparkl创建rdd.map()的形式添加上,另外保存文件需用到toDF.write.save(路径名(包含文件名称),format='csv'),注意一定要format一下,否则默认是parquet格式,用readcsv函数读取会乱码;另外,前辈教我使用了一些快捷键,方便提高效率的,比如:多窗口,跳转到类,自动创建类,测试,疑问:为什么一个py文件中没有:if __main__():的主函数,选择那一段,他就可以自动执行,在pycharm们都可以执行一段代码吗?不会报错吗?因为前面的环境都没执行;另外,项目经理思路比较转换得及时,当这样的解决思路耗费了较长时间是=时,会另外找一条更合适的方法;XX涛sql语句合并逻辑:先将子表与基础表进行: 基础表left join 子表 on 基础表.name = 子表.name where....,得到子表中间表;只有where语句会筛掉基础表中部分数据,然后再将所有子表的中间表进行sql语句合并,大致语法:select 子表1的中间表1.*,子表2的中间表2.*,...... from 子表1的中间表1,子表1的中间表2 ,........where 子表1的中间表1.name=子表1的中间表2.name,子表1的中间表2.name=子表1的中间表3.name,.............,自己下来再多想想其他实现方式:join 的那几种类型;full join等,;最后,今天晚上看了一下下周要做的:一,合并数据;二,xgboost算法学习,发现了天池里面好多好的资源以及阿里提供的计算平台,非常nice,还有,本周XX涛的PPT真是详细,全面,又很准确,自己也要加快了!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值