刘昊天:以数据思维助力工程实践 | 提升之路系列(十一)

00dfcece3de45877a3275a0a00650891.png

导读

 

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

至今,已有来自全校45个院系的3055名同学参加大数据能力提升项目,其中556位同学通过课程学习和实践获得由清华大学研究生院颁发的“清华大学大数据能力提升项目证书”。

谈起最大的收获,同学们表示无论是自身的数据思维还是本专业与大数据技术相结合的科研能力以及实践经验等方面均得到了很大的提升。清华的数据科学人才培养究竟有什么特别之处?让我们一起通过他们的故事,揭秘各院系清华学子的大数据提升之路吧!

d0e9a42b693d9cfd58bd862b0e08dfc4.png

刘昊天 电机系

2018 年,我从电机系本科毕业,并在本系直博,师从吴文传教授开展电力系统方向的研究。当时我的本科毕设主题是无模型自适应控制,以解决配电网广泛接入分布式电源带来的电压问题。这是一个很有挑战性的课题,我在本科毕设当中沿用了传统无模型控制的思路,并加以改良,解决了单个分布式电源的自适应电压控制问题。然而,当导师让我继续深入解决多分布式电源控制时,我却发现现有文献中的方法已经无法适用。究其原因,是我们所研究的配电网模型复杂度高、建模和参数维护困难,存在严重的模型不完备问题。因此,现有的模型驱动类分布式电源控制方法,在该场景下难以为继。这启发我转向数据驱动方法,从海量的配电网运行数据中挖掘得到分布式电源最优控制策略。然而,对于一个门外汉,入手大数据算法并达到能够进行学科交叉科学研究的水平,无疑是难上加难的。此时,我注意到了学校的“大数据能力提升项目”,并被该项目的培养方案和课程设置吸引,于是便选修了推荐的大数据课程。

一、认真修习课程,开阔学术视野

在能力提升项目中,我修习了多门交叉学科课程,如数据可视化、政务大数据分析等,并参加了多场主题讲座。这些课程和讲座与我本身的专业相差甚远,极大程度上开阔了我的学术视野。例如,在数据可视化课程中,我第一次从美学、设计学、心理学的角度审视数据可视化这个平时不被看重的环节。除了各种精彩的图表, 我还学习了如何从编码信息的角度去看待数据可视化工程,这在后续的科研工作中起到了重要的作用,让我可以在面对一个复杂的可视化问题时不再毫无头绪。这门课上,我为每个小作业都编写了静态网页,并带领小组完成了微信公众号数据可视化的项目,这不仅让我获得了 A 的成绩,还作为开源项目丰富了我的简历。又如, 在基础课大数据分析(B)中,)我和小组一同选择了深度强化学习作为最终综述作业的题目。在这门课程中是我第一次接触深度强化学习,而老师布置的参考文献和小组作业极大地促进了我对该领域的学习。这门课结束后,我便将深度强化学习作为自己博士研究的方向,以期借助深度强化学习在无模型场景下的寻优能力,优化配电网运行并促进分布式电源消纳。可以说,大数据能力提升项目的课程成为了我博士研究的重要基础。

5d2b94127c75076d81e056436f4ea07f.png

图 1 项目培养“数据可视化”课程作业

(可在线访问 https://shakespeare.nogeek.top 及 https://color.nogeek.top)

二、积极参加竞赛,打磨前沿技术

2021 年暑假,我参加了由全国高等学校计算机教育协会主办的“2021 中国高校计算机大赛—微信大数据挑战赛”,赛题为微信视频号用户行为预测,即通过视频特征和用户特征,预测用户的点赞、评论、关注等行为,并以此指导视频的推送。在该赛事中,我第一次接触到推荐算法,而完善的支撑平台和充足的实验数据,让我能够实验各种前沿算法,并打磨自己的大数据技术。树模型、DeepFM、MMoE、Attention、Transformer、GNN,这些关键词至今仍深深刻在我的脑海中。比赛中我们还遇到了严重的内存不足问题,这是一个典型的业界需要考量的问题,但在我以往的科研工作中都当成小事。经过积极研究,我改进了 PyTorch 数据集的加载机制、降低了 Pandas DataFrame 的内存占用,还把模型融合、交叉验证等技巧熟练运用。最终,我进入复赛并获得全国三等奖(Top 1%),这对一个非专业的学生来说是莫大的鼓励。另一方面,这个比赛也让我亲眼见证了大数据算法的强大:优秀的算法加上海量的数据,竟能在预测结果上实现质的飞跃。大数据思维,或许应成为每个工科博士生的必修课。

8d5e779104f1678b6dd98b2dd578078d.png

图 2 微信大数据挑战赛复赛阶段(队友视角)

三、专注学术科研,投身工程实践

课程的修习和竞赛的打磨都让我的大数据能力有了极大的提升,而这又直接反应在我的学术科研和工程实践中。以深度强化学习方法为基础,我的研究将配电网中的优化方法,从模型驱动升级为模型-数据融合驱动,通过智能学习与无模型控制理论,在线跟踪配电网特性,从而在模型不完备场景下依然能进行配电网优化。借助课程和竞赛打下的基础,我在学科交叉的科研中,不仅仅是“把大数据算法拿来用”, 而是从工程挑战出发,对算法进行原理层面的改进,并解决工程中的痛点问题。例如,现有的部分深度强化学习方法,需要大量在线训练样本,而这在配电网中将影响运行效率。因此,我研究了两阶段深度强化学习方法,创新型地将对抗强化学习引入配电网控制,使得离线训练结果可迁移到在线,大幅提升在线安全性。目前, 我以第一作者身份发表 3 篇 IEEE Trans.系列论文(行业顶刊),并申请了包括美国专利在内的多项专利。在工程实践中,我深度参与了包括国家自然科学基金、国网科技项目、国电投总部科技项目在内的多个纵、横向项目,从项目申请、技术研究到软件研发、工程示范,持续为大数据算法的落地转化贡献力量。

f9c781089e4e9c44db66c31c60bcd541.png

图 3 国家重点研发计划项目现场--安徽金寨

编辑:文婧

校对:林亦霖

d5608e22e18cc31dae81426ef8fed3dd.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值