2018-2-4--周工作总结-CSDN博客

本文链接：https://blog.csdn.net/sinat_26566137/article/details/79255147

今天立春了，今天是周日，没有加班，又到了该总结这一周工作的时候；这一周主要做了一个事情：就是准备前辈的训练数据，在这个过程中，用到了数据合并的技术，我的解决思路：将每个子表统一成相同字段结构，由于前辈又有新的需求，需要加一个uuid自动更新id索引的字段，所以一部分小的表就是通过collect之后，将子表一行一行读取出来，添加上uuid这个函数生成想要的索引字段；另一部分表由于数据量太大，大约有200多万行，因此不能直接在本地pycharm直接collect ,需要运用sparkl创建rdd.map()的形式添加上，另外保存文件需用到toDF.write.save(路径名（包含文件名称），format='csv'),注意一定要format一下，否则默认是parquet格式，用readcsv函数读取会乱码；另外，前辈教我使用了一些快捷键，方便提高效率的，比如：多窗口，跳转到类，自动创建类，测试，疑问：为什么一个py文件中没有:if __main__():的主函数，选择那一段，他就可以自动执行，在pycharm们都可以执行一段代码吗？不会报错吗？因为前面的环境都没执行；另外，项目经理思路比较转换得及时，当这样的解决思路耗费了较长时间是=时，会另外找一条更合适的方法；XX涛sql语句合并逻辑：先将子表与基础表进行: 基础表left join 子表 on 基础表.name = 子表.name where....，得到子表中间表;只有where语句会筛掉基础表中部分数据，然后再将所有子表的中间表进行sql语句合并，大致语法：select 子表1的中间表1.*，子表2的中间表2.*,...... from 子表1的中间表1,子表1的中间表2 ,........where 子表1的中间表1.name=子表1的中间表2.name,子表1的中间表2.name=子表1的中间表3.name,.............,自己下来再多想想其他实现方式：join 的那几种类型；full join等，；最后，今天晚上看了一下下周要做的：一，合并数据；二，xgboost算法学习，发现了天池里面好多好的资源以及阿里提供的计算平台，非常nice,还有，本周ＸＸ涛的ＰＰＴ真是详细，全面，又很准确，自己也要加快了！！！