真滴优秀！！！

Datawhale

于 2024-07-24 22:38:44 发布

阅读量855

点赞数 20

本文链接：https://blog.csdn.net/Datawhale/article/details/140682547

版权

Datawhale干货

分享：Datawhale优秀学习者

上周我们公布了第一期优秀学习者的名单。

评论区都刷满了“宾大非江哥哥我的榜样”，“向非江哥哥对齐颗粒度，早日达成ai大神”，“数风流人物，还看非江”。

让我们一起和AI夏令营优秀学习者“对齐颗粒度”吧！！

AI夏令营第三期报名地址👉：提供实习证明和奖学金！面向本科生、研究生的 AI 夏令营来了！

和优秀学习者们一起成长。

优秀学习者经验帖

王琳

（AI夏令营第一期机器学习方向）

在本次夏令营学习过程中，我收获了以下学习经验，

1. 数据预处理的重要性：在项目开始时，数据预处理是非常关键的一步。通过这次实践，我深刻体会到清洗和处理数据的重要性。确保数据的完整性和一致性，可以为后续的特征工程和模型训练打下坚实的基础。

2.特征工程的技巧：有效的特征工程能够显著提升模型的表现。通过学习RDKit处理SMILES字符串，并结合TF-IDF进行向量化处理，我学会了如何从数据中提取更有用的信息，为模型提供更好的输入特征。

3.模型选择与评估方法：选择合适的模型和评估方法是机器学习项目成功的关键。在这次项目中，CatBoost模型展示了其在处理类别特征和非平衡数据方面的优势，而通过KFold交叉验证方法评估模型性能，可以确保模型的稳定性和泛化能力。

4.多次尝试与调试：在项目过程中，多次尝试不同的方法和参数是非常必要的。通过不断调试和优化代码，我不仅提高了代码的可读性和运行效率，还积累了大量的调试经验，增强了自己的编码能力。

笔记链接：https://kvvfq6pisy7.feishu.cn/docx/O0ubdNEC1oFpzkx34CXcVa0xnwe
实践赛事：https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_Dv9Q7B

韩松良

（AI夏令营第一期大模型技术方向）

作为一名旅游管理专业的研究生，尽管属于社科类，但在学习过程中，我意识到Python和大模型技术在现代研究中的重要性，因此参加了为期一周的大模型夏令营，希望提升自己的技术水平，特别是在智慧旅游和“旅游+”领域的应用。

随着课程的深入，我认识到数据处理在大模型应用中的关键作用。通过清洗和预处理数据，并设计合理的prompt，可以显著提升模型表现。数据质量和处理方法直接影响模型效果，这使我在今后的研究中将更加注重数据的整理和优化，以提高模型的准确性和可靠性。例如，在智慧景区管理中，实时数据的分析和处理可以帮助预测游客流量，优化景区资源配置；在旅游推荐系统中，清洗后的游客偏好数据可以提高推荐的精准度；在遗产保护方面，大模型可以帮助识别和分类文物信息，提供保护和修复建议。

在微调模型的过程中，我学到了个性化调整的重要性。通过微调，使模型更好地适应特定任务和数据，这是提升模型实际应用效果的关键。模型应用需要根据具体需求进行不断优化和调整，这对于旅游管理中的许多场景尤为重要，例如在不同景区或旅游季节，游客行为模式的差异需要模型相应调整以保持高效性和准确性。

邓一鑫

（AI夏令营第一期大模型技术方向）

非常荣幸能和大佬们在一起学习大语言模型，我本身是景观设计行业的，这方面的经验可能很少，听完诺神和其他几位大佬的思路之后，我茅塞顿开，大概知道的解决思路。

就像多轮询问打分机制就可以规避姓名空值多的原因，再就是诺神提到的增强模型信息抽取能力一个微调办法。

而且我本身这种根据训练集的数据分布，让模型进行选择这个思路，对于模型的发展来说并不具有太大的意义，因为这种方法扼杀了模型的泛化能力，就像考试中的应试教育一样，所以应该尽量不要用这种方法去引导，总之就是，收获满满。

笔记链接：
https://pvbszzjuhcv.feishu.cn/wiki/GBPwwr6m6iPe5Ake7ZAcuawWnlh（过分优秀）
实践赛事：
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

陈馨远

（AI夏令营第一期机器学习方向）

在跑通baseline之后，我尝试构建其他机器学习模型，以期提高准确率。起初，我也是一头雾水，模型的选择、参数调优问题等一系列亟待解决的问题。但通过上网搜集资料、与同学们交流学习，我逐个找到了解决问题的方法。我学习了很多之前未曾接触的机器学习算法和技术，如LightGBM、XGBoost等高效的梯度提升算法，CatBoost在处理分类特征方面的专长，RDKit在化学信息学领域的强大应用，TF-IDF在文本挖掘中的加权技术，以及交叉验证在模型评估中的重要性。这些知识不仅丰富了我的技术储备，也为我解决实际问题提供了学习方向。

笔记链接（甘肃政法大学有自己的笔记站！！！）：
https://pvbszzjuhcv.feishu.cn/wiki/GBPwwr6m6iPe5Ake7ZAcuawWnlh
实践赛事：
https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_Dv9Q7B

第一期优秀学习者学习心得&思考

非江哥哥

（AI夏令营第一期大模型技术方向）

大佬们关于比赛的细节和感想都在笔记里说的很清楚了。不过我个人背景比较偏research而不是工程，因此我想谈谈这个比赛对research的引领作用。”

------

做完这个比赛大家基本上都对Prompt Engineering和微调有一些思路了。我最近在写LLM的论文，也读了很多LLM的论文，这里来分享一下用做LLM+science应用科研的思路吧。大家之后可以结合自己的下游科学方向做一些应用研究，这种工作目前也是可以发论文（水论文）的。

比如用LLM+微调检测xxx、LLM+上下文学习+CoT/ToT检测xxx。需要注意的是单纯的Prompt Engineering已经研究的太多了，这种论文除非是非常新的领域，不然已经没有什么新意了。目前应用方面的论文主流还是在研究各种微调技术的应用，以及把LLM结合传统深度学习模型如GNN来做检测任务等等。

我做的是AI for Science方向，之前某个science方向没有人探索利用LLM做分类和检测，因此我就“抢占先机”用LLM做了这个方向。我第一篇论文发的是LLM+上下文学习，第二篇做的是微调，之后可以继续做LLM+GNN...

如果有人做science方向，也可以结合自己目前的研究方向思考一下能不能用LLM做。LLM很强大，传统机器学习的分类和检测基本上都能做，不过需要好好调教Prompt和微调，以及需要资金来调用GPT4接口...这个过程中还有许多可以玩的地方，比如如何选择示例，如何构造图信息，如何利用COT和ToT，如何把LLM和GNN等深度学习模型联合训练, 知识图谱+LLM....

最后，如果想做一些更高质量的工作，想要从LLM结构上做创新，就必须搞清楚LLM内部的原理，例如transformer和注意力机制内部的细节。很多厉害的工作都是在理解细节和原理的基础上才做出来的，比如用对比学习结合LLM，这也是我之后努力的方向。

总之，比赛是实践入门的好渠道，但如果想继续做一下好玩的工作，还需要多看看paper，多看看底层细节。datawhale的github上有很多资料，吴恩达的gpt课程也很精彩。我们下一个比赛再见。

笔记链接：

https://zhuanlan.zhihu.com/p/706778725

实践赛事：
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

张永刚

（AI夏令营第一期大模型技术方向）

大家好，我是货拉拉拉不拉多，感谢Datawhale开源学习平台提供的AI夏令营学习机会，很荣幸能够成为优秀学习者。在这里，我不仅提升了自己的技术水平，还有十分丰富的学习体验

在这个学习过程中，我深刻体会到了个人学习与集体交流学习的巨大区别。个人学习时，尽管可以按照自己的节奏和兴趣深入钻研，但往往会因为缺乏分享和讨论的机会而获得较低的成就感，可能会消磨学习的兴趣和动力，最终就是从入门到放弃。而在Datawhale的学习平台上，通过与其他学员的交流与分享，我不仅能够获得更多的学习资源和方法，还能通过讨论和合作解决实际问题。这种互助和互动的学习方式，使得学习变得更加高效和有趣。同时，我还可以将自己的学习笔记与他人分享，也很高兴能够帮助其他学员更快地融入比赛和学习中，这让我感到非常有成就感和满足感。

特别是在这次比赛中，通过大模型微调的学习，尽管我们无法掌控Lora微调的过程，但是我发现优秀的数据观察能力也是十分重要，好的数据预处理和prompt构造对大模型微调也是十分重要的，这些经验都让我受益匪浅。大家的智慧和努力，使得这个学习过程充满了挑战和乐趣。

再次感谢Datawhale开源学习平台，感谢平台上各位老师和助教的耐心指导，以及各位同学们的积极交流和讨论。正是有了你们的帮助和支持，我才能在这个夏天收获如此多的知识。希望我们在未来的学习和工作中，能继续保持进步！

感谢大家！

笔记链接：http://t.csdnimg.cn/lD8YQ
实践赛事：
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

张世斌

（AI夏令营第一期大模型技术方向）

在这个令人难忘的夏令营活动中，我参与了群聊对话分角色要素提取的挑战比赛。这个比赛不仅是一次技术上的尝试，更是一次与众不同的学习体验。比赛开始前，我对这个主题只是略有耳闻，然而跟着Datawhale的大佬的指导，从最初的理论讲解到实际操作，每一步都是对知识的深入探索和应用。开始逐渐掌握如何识别和区分不同角色在对话中的语言特征，这其中既有技术上的挑战，也有理解上的深度思考。在这个过程中，与其他参赛者的交流和讨论，分享解决方案，互相学习和进步。每一次提交和评估都是对自己学习成果的检验，同时也是技术能力的展示和提升。比赛不仅带给我了技术上的收获和成就感，更重要的是让我体验到了与志同道合的人们一起努力、一起进步的喜悦。这种学习氛围和团队合作的精神，不仅激发了我的学习兴趣，也让我更深刻地理解到了知识的无限可能性和实践的重要性。回顾这次夏令营活动，我期待着将这些收获应用到更多的实际项目中，与更多志同道合的伙伴们一同追求卓越。

笔记链接：
https://d167yddq51j.feishu.cn/wiki/IfZMw7gcvimEn8k0CVoc9kQpntC
实践赛事：
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_Dv9Q7B

李永胜

（AI夏令营第一期机器学习方向）

大家晚上好，我是李永胜，很荣幸能评为优秀学员。说来惭愧，最初是在去年看到李沐老师和Datawhale共同组织学习《动手学深度学习》知道了Datawhale这个组织，但遗憾的是参与了几次活动，都是仅仅“适度体验”了一下。但在这个体验的过程中，不知不觉就了解了很多人工智能的知识，积累了一定的兴趣。后来ChatGPT3.5一发布，我第一时间就告诉了同学，但那时大家还不怎么感兴趣。再后来，当越来越多人使用AIGC工具，已经变为生产力工具了，这下不仅兴趣使然，而且也有必要学习这一工具了。

考上研究生后，有了时间便毫不犹豫参与到这次课程学习，想学习更多的知识。由于本科是电子信息，并不是计算机专业，很多知识都不系统，如果让我独立完成一个项目，那估计很难。但感谢Datawhale编写了详细的教程，可一键运行的代码，使得上手体验极度舒适。这几天的学到的知识中，首先是配置好了运行环境（VScode和anaconda），然后跟着代码学习，从安装各种包，再到机器学习的基本知识，数据处理，特征工程，模型建立调参等等，完整的体验了一遍机器学习项目的实现过程。这种保姆式的学习体验十分舒适，也不用太考虑得分啥的，十分有趣，更加激发了我对于AI的乐趣，真的很感谢大家！！！

最后再分享偶像李沐老师的一篇文章：https://www.bilibili.com/read/cv13335461，十分富有哲理。

笔记链接：

https://zhuanlan.zhihu.com/p/706952809
实践赛事：
https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_Dv9Q7B

-End-

「AI 夏令营只是一个开始」

「我们将在Datawhale一起成长」

Datawhale 优秀学习者名单公示！

提供实习证明和奖学金！
面向本科生、研究生的 AI 夏令营（第三期）

Datawhale

关注

20
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
真滴优秀！！！

Datawhale干货分享：Datawhale优秀学习者上周我们公布了第一期优秀学习者的名单。评论区都刷满了“宾大非江哥哥我的榜样”，“向非江哥哥对齐颗粒度，早日达成ai大神”，“数风流人物，还看非江”。让我们一起和AI夏令营优秀学习者“对齐颗粒度”吧！！AI夏令营第三期报名地址????：提供实习证明和奖学金！面向本科生、研究生的 AI 夏令营来了！和优秀学习者们一起成长。优秀学习者经验帖01王琳...
复制链接

扫一扫