七八月总结

这俩月,偶很忙~~~~

1. 起初的日子

刚来HW,一切都是新的,小编有点不习惯,由于信息保密很严格,这里是不能连接外网的,所以小编获取知识的途径是自己的知识储备、查书、向同事请教。小编之前没有大数据相关的实战经验,花了3天的时间便看书便做实验,掌握了HIVE和PIG处理数据规则。然后PM给我们讲解了业务知识,重点涉及到R1,R2,R3这三张表之间的关系及各维度的意义。这也是小编第一次接触到上千维度的数据表。其中R3 的数据有1000+亿,慢慢就习惯这里,最开心的是每天都可以玩这些原汁原味的工业数据,两周的时间,小编对业务知识和工作流程有了基本的掌握,写了一些处理数据的脚本。

这里写图片描述

2. 渐入佳境

时间飞逝,经过两周的时间,小编很好的融入了团队。正式进入模型组,小编接手的是任务是对光模块中变压器进行预警,其背景是HW单板产品的生产厂家,像上海剑桥、海信等各厂每天生产量过千,需要定位出光模块中有问题变压器的单板,提供预警功能。小编拿到这个工作任务后,确立了3个步骤。首先是提取出光模块中变压器的相关数据,其次是对提取的数据建模分析,最后是编写实现该功能的算法。

  • 提取光模块中变压器的相关数据

    核心数据主要从R3中提取,小编写了一个hql脚本来完成这个任务。由于R3有1000+亿的数据,同时还要与R1和R2关联,整个过程在Hadoop平台用了近3个小时完成。这已经让小编很开心了,如果放到Oracle上做,这么大的数据量没有两三天是跑不完的。。。分布式平台真的很强大。

  • 建模分析

    验证提取数据没有问题之后,就开始了建模工作,小编也是摸着石头过河。数据挖掘本身带有很多不确定性,小编开始也做了些探索性的工作,将数据集中分成变压器有问题数据集和没有问题数据集,然后尝试了机器学习中的决策树算法和SVM算法,发现效果不好,最后运用线性回归,准确性有提升,但效果里目标还是有差距,小编陷入了困境,怎么破?另辟蹊径,从统计学角度出发,小编用CDF模型发现两者有很好的区分度,达到目标,leader对模型满意,整个过程小编花了一周的时间,这也是该任务最核心也是比较困难的部分。

  • 实现

    建模阶段小编采用的是R,考虑到综合性能,最终逻辑实现采用的是python,python在处理数据的时候还是要比R快不少,这个过程小编完成还是挺快的,加上最后的测试阶段2天就完成了。

这里写图片描述

3. 难说再见

时间在来去匆匆的日 子里悄然飞逝,随着月末的到来,小编完成了变压器质量预警、温循前后发送光功率差值预警、老化后发送光功率预警、消光比、BOSA来料质量预警5个功能模块的工作,对于小编来说这些既是挑战更是机遇,因为知识都是相通的,这段日子会在小编的人生中留下珍贵的记忆,每天的世界里,很多种事,有的甜蜜,有的温馨,有的婉转成歌,有的绵延不息,在这些故事里,唯一的共通之处就是,某年,某月,某个波澜不惊的日子里,曾经很爱很爱你!爱你—这 段忙碌的日子里,带给小编的种种的惊喜。

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值