真滴优秀!!!

 Datawhale干货 

分享:Datawhale优秀学习者


上周我们公布了第一期优秀学习者的名单。

评论区都刷满了“宾大非江哥哥 我的榜样”,“向非江哥哥对齐颗粒度,早日达成ai大神”,“数风流人物,还看非江”。

让我们一起和AI夏令营优秀学习者“对齐颗粒度”吧!!

AI夏令营第三期报名地址👉:提供实习证明和奖学金!面向本科生、研究生的 AI 夏令营来了!

和优秀学习者们一起成长。

优秀学习者经验帖

01

王琳

(AI夏令营第一期 机器学习方向)

a3be213ee06b8c429ef76c4dace945bd.jpeg

在本次夏令营学习过程中,我收获了以下学习经验,

1. 数据预处理的重要性:在项目开始时,数据预处理是非常关键的一步。通过这次实践,我深刻体会到清洗和处理数据的重要性。确保数据的完整性和一致性,可以为后续的特征工程和模型训练打下坚实的基础。

2.特征工程的技巧:有效的特征工程能够显著提升模型的表现。通过学习RDKit处理SMILES字符串,并结合TF-IDF进行向量化处理,我学会了如何从数据中提取更有用的信息,为模型提供更好的输入特征。

3.模型选择与评估方法:选择合适的模型和评估方法是机器学习项目成功的关键。在这次项目中,CatBoost模型展示了其在处理类别特征和非平衡数据方面的优势,而通过KFold交叉验证方法评估模型性能,可以确保模型的稳定性和泛化能力。

4.多次尝试与调试:在项目过程中,多次尝试不同的方法和参数是非常必要的。通过不断调试和优化代码,我不仅提高了代码的可读性和运行效率,还积累了大量的调试经验,增强了自己的编码能力。

6a8585f28b89334f47c5929c2df7ac92.jpeg

笔记链接:https://kvvfq6pisy7.feishu.cn/docx/O0ubdNEC1oFpzkx34CXcVa0xnwe
实践赛事:https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_Dv9Q7B

02

韩松良

AI夏令营第一期 大模型技术方向

d231e48abc15797c9b2d969313d86bb8.jpeg

作为一名旅游管理专业的研究生,尽管属于社科类,但在学习过程中,我意识到Python和大模型技术在现代研究中的重要性,因此参加了为期一周的大模型夏令营,希望提升自己的技术水平,特别是在智慧旅游和“旅游+”领域的应用。

随着课程的深入,我认识到数据处理在大模型应用中的关键作用。通过清洗和预处理数据,并设计合理的prompt,可以显著提升模型表现。数据质量和处理方法直接影响模型效果,这使我在今后的研究中将更加注重数据的整理和优化,以提高模型的准确性和可靠性。例如,在智慧景区管理中,实时数据的分析和处理可以帮助预测游客流量,优化景区资源配置;在旅游推荐系统中,清洗后的游客偏好数据可以提高推荐的精准度;在遗产保护方面,大模型可以帮助识别和分类文物信息,提供保护和修复建议。

在微调模型的过程中,我学到了个性化调整的重要性。通过微调,使模型更好地适应特定任务和数据,这是提升模型实际应用效果的关键。模型应用需要根据具体需求进行不断优化和调整,这对于旅游管理中的许多场景尤为重要,例如在不同景区或旅游季节,游客行为模式的差异需要模型相应调整以保持高效性和准确性。

2a311fd4ad1ccd4fefdbf62672bbc8f0.jpeg

03

邓一鑫

AI夏令营第一期 大模型技术方向

4a6ce667aa1fff0dcdf4c75291d4738f.jpeg

非常荣幸能和大佬们在一起学习大语言模型,我本身是景观设计行业的,这方面的经验可能很少,听完诺神和其他几位大佬的思路之后,我茅塞顿开,大概知道的解决思路。

就像多轮询问打分机制就可以规避姓名空值多的原因,再就是诺神提到的增强模型信息抽取能力一个微调办法。

而且我本身这种根据训练集的数据分布,让模型进行选择这个思路,对于模型的发展来说并不具有太大的意义,因为这种方法扼杀了模型的泛化能力,就像考试中的应试教育一样,所以应该尽量不要用这种方法去引导,总之就是,收获满满。

1fa905a788c6eaa554b6df3666fd8a35.jpeg

笔记链接:
https://pvbszzjuhcv.feishu.cn/wiki/GBPwwr6m6iPe5Ake7ZAcuawWnlh(过分优秀)
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

04

陈馨远

AI夏令营第一期 机器学习方向

e822265105b639d886d554ce7e3c58cc.jpeg

在跑通baseline之后,我尝试构建其他机器学习模型,以期提高准确率。起初,我也是一头雾水,模型的选择、参数调优问题等一系列亟待解决的问题。但通过上网搜集资料、与同学们交流学习,我逐个找到了解决问题的方法。我学习了很多之前未曾接触的机器学习算法和技术,如LightGBM、XGBoost等高效的梯度提升算法,CatBoost在处理分类特征方面的专长,RDKit在化学信息学领域的强大应用,TF-IDF在文本挖掘中的加权技术,以及交叉验证在模型评估中的重要性。这些知识不仅丰富了我的技术储备,也为我解决实际问题提供了学习方向。

0a4bfbb1b0368b6be69135dd04f70196.png

笔记链接(甘肃政法大学有自己的笔记站!!!):
https://pvbszzjuhcv.feishu.cn/wiki/GBPwwr6m6iPe5Ake7ZAcuawWnlh
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_Dv9Q7B

59fa52d36daa730f39904b3254f164fa.png

第一期优秀学习者学习心得&思考

01

非江哥哥

AI夏令营第一期 大模型技术方向

120e282c80a43d952f738664273b0d71.jpeg

大佬们关于比赛的细节和感想都在笔记里说的很清楚了。不过我个人背景比较偏research而不是工程,因此我想谈谈这个比赛对research的引领作用。”

------

做完这个比赛大家基本上都对Prompt Engineering和微调有一些思路了。我最近在写LLM的论文,也读了很多LLM的论文,这里来分享一下用做LLM+science应用科研的思路吧。大家之后可以结合自己的下游科学方向做一些应用研究,这种工作目前也是可以发论文(水论文)的。

比如用LLM+微调检测xxx、LLM+上下文学习+CoT/ToT检测xxx。需要注意的是单纯的Prompt Engineering已经研究的太多了,这种论文除非是非常新的领域,不然已经没有什么新意了。目前应用方面的论文主流还是在研究各种微调技术的应用,以及把LLM结合传统深度学习模型如GNN来做检测任务等等。

我做的是AI for Science方向,之前某个science方向没有人探索利用LLM做分类和检测,因此我就“抢占先机”用LLM做了这个方向。我第一篇论文发的是LLM+上下文学习,第二篇做的是微调,之后可以继续做LLM+GNN...

如果有人做science方向,也可以结合自己目前的研究方向思考一下能不能用LLM做。LLM很强大,传统机器学习的分类和检测基本上都能做,不过需要好好调教Prompt和微调,以及需要资金来调用GPT4接口...这个过程中还有许多可以玩的地方,比如如何选择示例,如何构造图信息,如何利用COT和ToT,如何把LLM和GNN等深度学习模型联合训练, 知识图谱+LLM....

最后,如果想做一些更高质量的工作,想要从LLM结构上做创新,就必须搞清楚LLM内部的原理,例如transformer和注意力机制内部的细节。很多厉害的工作都是在理解细节和原理的基础上才做出来的,比如用对比学习结合LLM,这也是我之后努力的方向。

总之,比赛是实践入门的好渠道,但如果想继续做一下好玩的工作,还需要多看看paper,多看看底层细节。datawhale的github上有很多资料,吴恩达的gpt课程也很精彩。我们下一个比赛再见。

ed9af2ee7c9512e3130773c02b738020.png

笔记链接:

https://zhuanlan.zhihu.com/p/706778725

实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

02

张永刚

AI夏令营第一期 大模型技术方向

大家好,我是货拉拉拉不拉多,感谢Datawhale开源学习平台提供的AI夏令营学习机会,很荣幸能够成为优秀学习者。在这里,我不仅提升了自己的技术水平,还有十分丰富的学习体验

在这个学习过程中,我深刻体会到了个人学习与集体交流学习的巨大区别。个人学习时,尽管可以按照自己的节奏和兴趣深入钻研,但往往会因为缺乏分享和讨论的机会而获得较低的成就感,可能会消磨学习的兴趣和动力,最终就是从入门到放弃。而在Datawhale的学习平台上,通过与其他学员的交流与分享,我不仅能够获得更多的学习资源和方法,还能通过讨论和合作解决实际问题。这种互助和互动的学习方式,使得学习变得更加高效和有趣。同时,我还可以将自己的学习笔记与他人分享,也很高兴能够帮助其他学员更快地融入比赛和学习中,这让我感到非常有成就感和满足感。

特别是在这次比赛中,通过大模型微调的学习,尽管我们无法掌控Lora微调的过程,但是我发现优秀的数据观察能力也是十分重要,好的数据预处理和prompt构造对大模型微调也是十分重要的,这些经验都让我受益匪浅。大家的智慧和努力,使得这个学习过程充满了挑战和乐趣。

再次感谢Datawhale开源学习平台,感谢平台上各位老师和助教的耐心指导,以及各位同学们的积极交流和讨论。正是有了你们的帮助和支持,我才能在这个夏天收获如此多的知识。希望我们在未来的学习和工作中,能继续保持进步!

感谢大家!

295eff12ad92b4e9d7bc7cb0787e6cae.png

笔记链接:http://t.csdnimg.cn/lD8YQ
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

03

张世斌

AI夏令营第一期 大模型技术方向

c490398bdd146d11f8259e227f154891.jpeg

在这个令人难忘的夏令营活动中,我参与了群聊对话分角色要素提取的挑战比赛。这个比赛不仅是一次技术上的尝试,更是一次与众不同的学习体验。比赛开始前,我对这个主题只是略有耳闻,然而跟着Datawhale的大佬的指导,从最初的理论讲解到实际操作,每一步都是对知识的深入探索和应用。开始逐渐掌握如何识别和区分不同角色在对话中的语言特征,这其中既有技术上的挑战,也有理解上的深度思考。在这个过程中,与其他参赛者的交流和讨论,分享解决方案,互相学习和进步。每一次提交和评估都是对自己学习成果的检验,同时也是技术能力的展示和提升。比赛不仅带给我了技术上的收获和成就感,更重要的是让我体验到了与志同道合的人们一起努力、一起进步的喜悦。这种学习氛围和团队合作的精神,不仅激发了我的学习兴趣,也让我更深刻地理解到了知识的无限可能性和实践的重要性。回顾这次夏令营活动,我期待着将这些收获应用到更多的实际项目中,与更多志同道合的伙伴们一同追求卓越。

14fb6927ce92033c6adebcd1e4a53ed6.png

笔记链接:
https://d167yddq51j.feishu.cn/wiki/IfZMw7gcvimEn8k0CVoc9kQpntC
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

04

李永胜

AI夏令营第一期 机器学习方向

c737f66edfd49aea426e17f385f10286.jpeg

大家晚上好,我是李永胜,很荣幸能评为优秀学员。说来惭愧,最初是在去年看到李沐老师和Datawhale共同组织学习《动手学深度学习》知道了Datawhale这个组织,但遗憾的是参与了几次活动,都是仅仅“适度体验”了一下。但在这个体验的过程中,不知不觉就了解了很多人工智能的知识,积累了一定的兴趣。后来ChatGPT3.5一发布,我第一时间就告诉了同学,但那时大家还不怎么感兴趣。再后来,当越来越多人使用AIGC工具,已经变为生产力工具了,这下不仅兴趣使然,而且也有必要学习这一工具了。

考上研究生后,有了时间便毫不犹豫参与到这次课程学习,想学习更多的知识。由于本科是电子信息,并不是计算机专业,很多知识都不系统,如果让我独立完成一个项目,那估计很难。但感谢Datawhale编写了详细的教程,可一键运行的代码,使得上手体验极度舒适。这几天的学到的知识中,首先是配置好了运行环境(VScode和anaconda),然后跟着代码学习,从安装各种包,再到机器学习的基本知识,数据处理,特征工程,模型建立调参等等,完整的体验了一遍机器学习项目的实现过程。这种保姆式的学习体验十分舒适,也不用太考虑得分啥的,十分有趣,更加激发了我对于AI的乐趣,真的很感谢大家!!!

最后再分享偶像李沐老师的一篇文章:https://www.bilibili.com/read/cv13335461,十分富有哲理。

69527c5f866cad1c03bdd814d9a84b96.png

笔记链接:

https://zhuanlan.zhihu.com/p/706952809
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_Dv9Q7B

-End-

「AI 夏令营只是一个开始」

「我们将在Datawhale一起成长」

Datawhale 优秀学习者名单公示!

提供实习证明和奖学金!
面向本科生、研究生的 AI 夏令营
(第三期)

26c022bc98e8dd93b6bd7b1bf34e35e1.png

  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古以来的短板,有效的提升管理的效率和业务水平。传统的管理模式,时间越久管理的内容越多,也需要更多的人来对数据进行整理,并且数据的汇总查询方面效率也是极其的低下,并且数据安全方面永远不会保证安全性能。结合数据内容管理的种种缺点,在互联网时代都可以得到有效的补充。结合先进的互联网技术,开发符合需求的软件,让数据内容管理不管是从录入的及时性,查看的及时性还是汇总分析的及时性,都能让正确率达到最高,管理更加的科学和便捷。本次开发的医院后台管理系统实现了病房管理、病例管理、处方管理、字典管理、公告信息管理、患者管理、药品管理、医生管理、预约医生管理、住院管理、管理员管理等功能。系统用到了关系型数据库中王者MySql作为系统的数据库,有效的对数据进行安全的存储,有效的备份,对数据可靠性方面得到了保证。并且程序也具备程序需求的所有功能,使得操作性还是安全性都大大提高,让医院后台管理系统更能从理念走到现实,确确实实的让人们提升信息处理效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值