文章目录
收藏了各种文章、github资源、赛事top方案等等
一、.机器学习、深度学习库、优秀课程
1.1 资源库
- 《ApacheCN 深度学习译文集》、各种语言、代码库官方API文档集合
- 《PyTorch官网教程》、 中文文档、《PyTorch 中文教程 1.7》
- scikit-learn官网
- AI Studio帮助文档、paddle-github地址、paddle文档
- Python语言(参考《python3.6.3中文手册》、《Python 3 教程》、《十万行代码》)、python3.10中文文档
1.2 优秀课程
- 李沐《动手学深度学习 》中文第二版,github地址、课程主页
- 百度AI产品与应用学习路线、paddle应用实践、paddle课程
- 《自然语言处理》(车万翔)配套案例代码地址
- 《深度学习基础》
- 邱锡鹏:神经网络与深度学习
1.3 优秀作者、公众号
- 网站《Python深度学习基于PyTorch》貌似是介绍了PyTorch官网的几乎所有内容。还有配套bilibili视频讲解《Python深度学习:基于Pytorch (合集)》
- 张贤笔记: 《PyTorch 学习笔记汇总(完结撒花)》、 [PyTorch 学习笔记] 6.1 weight decay 和 dropout
- 多多笔记 之《2021年如何科学的“微调”预训练模型?》
- 知乎:致Great、张贤同学、阿水公众号【Coggle数据科学】、鱼遇雨欲语与余公众号:Coggle数据科学、苏剑林、台运鹏
- kaggle:致Great、Venkatkumar R
- 苏剑林个人主页、github
二、datawhale组队学习相关:
2.1 组队学习课程
-
Datawhale三月学习:动手学深度学习(Pytorch)(23年3月)
-
Datawhale四月学习:Datawhale 4月AIGC - ChatGPT从入门到应用 ,包含吴恩达 x OpenAI官方课程《hatGPT Prompt Engineering for Developers》的视频、项目地址(包含笔记)、进阶教程 Hugging LLM
-
Datawhale八月学习《MMSegmentation语义分割全流程》、《科研论文配图绘制指南》
2.2 每月赛事学习:Coggle 30 Days of ML
-
Coggle 30 Days of ML(21年10月)、打卡石墨文档、10月活动总结(含优秀打卡汇总)、
-
Coggle 30 Days of ML(23年3月):意图识别任务,包括TFIDF、FastText、BERT、Prompt文本分类,BERT、T5和GPT原理等知识。
-
Coggle 30 Days of ML(23年8月):学习资料
- 了解GPT模型的基本原理和工作方式。
- 探索ChatGPT在自然语言处理和人工智能领域的应用。
- 理解prompt在使用ChatGPT时的重要性,以及对生成结果的影响。
- 分析优秀和低效prompt的案例,从中学习如何设计更有效的prompt。
三、NLP相关
3.1 NLP相关
-
生成对抗网络
-
NLP中的数据增强
3.2 transformer资源
-
知识蒸馏Distilled BiLSTM论文解读《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 》,原文链接。
-
《The Annotated Transformer》:原文以及中文翻译、datawhale地址
-
《Attention Is All You Need 原始论文中英文对照翻译》、 Attention is all you need的Pytorch实现
-
transformer知识点:
-
论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型、《A Survey of Transformers》英文pdf
-
深度学习论文翻译:Image Classification、Object Detection、OCR
-
张贤笔记:
3.3 Hugging Face:
- Hugging Face主页课程 1-3译文
- Summary of the tokenizers
- Using tokenizers from 🤗 Tokenizers
- 从头训练分词器,中文翻译见此贴第二节、《BPE、wordpiece、ULM三大分词原理》
- Loading a Dataset,dataset拆分和切片
- 从头开始预训练BERT模型、《pytorch loop微调预训练模型》
- 在modelpoint基础上训练语言模型、中文翻译可以查看:datawhale中文教程
- trainer参数设定参考:《huggingface transformers使用指南之二——方便的trainer》
- huggingface transformers使用指南(更新and待续)
- hugging face 官方文档——datasets、optimizer
- transformers/trainer.py
- 社区文档:社区transformer资源、notebook
3.4 其它文章
四、CV相关
-
清欢守护者《CV》(包括数据增强、cv论文、各种模型等等98篇)
五、数据挖掘
5.1 数据分析
5.2 推荐系统
六、赛事
- 572场kaggle竞赛开原方案和Top思路汇总
- Datawhale competition-baseline汇总(github)、 Datawhale大满贯赛事文档、
- Coggle数据科学 competition-baseline汇总(gitee)、 Coggle年度原创文章汇总:各种竞赛总结
- 科大讯飞2021 AI开发者大赛算法赛(附30场比赛答辩视频)
- 《Kaggle 2021年 45场比赛&优胜方案汇总》
6.1 NLP赛事
6.1.1 kaggle类
-
U.S. Patent Phrase to Phrase Matching(2022.3.21——2022.7.20)
- 数据分析《The Complete Overview》
- 1st place solution
- 2nd Place Solution
- 3rd place solution
- 5th solution: prompt is all you need
- 7th place solution - the power of randomness
- 8th place solution: Predicting Targets at Once Led Us to Gold
- 10th place Solution : Single model public lb 0.8562, private lb 0.8717
- 12th Place Solution
-
Feedback Prize - Evaluating Student Writing(2021.12.14——2.22.3.15)
Though a Named Entity Recognition competition as opposed to classification, the dataset contains 11,403 additional essays and 70,763 additional essay sections.- 数据分析.
- 1st solution with code(cv:0.748 lb:0.742)
- 2nd Place - Weighted Box Fusion and Post Process
- 3rd Place Solution w code and notebook
- 4th place solution - 🎖️ my first gold medal 🎖️ (+source code available!)
- 5’th place : simultaneous span segmentation and classification + WBF
- 6th place solution. A YOLO-like text span detector.
- 7th place solution
- 9th solution, deberta is the king, pure ensemble of bert models
- 10th solution
-
《NBME - Score Clinical Patient Notes》(2022.2.1——2022.3.3)
-
《Jigsaw Rate Severity of Toxic Comments》(2021.11.8——2022.2.7)
-
Jigsaw Unintended Bias in Toxicity Classification | 2019/2020
-
kaggle-llm-science-exam:多选问答比赛,数据由GPT-3.5生成,竞赛旨在探讨比gpt3.5小10倍以上的问答模型能否有效回答gpt3.5编写的问题(这是一个notebook比赛,不能联网,kaggle上运行的模型最多10B参数左右)。结果将揭示LLM的基准测试和自我测试能力,竞赛方案见Kaggle大模型比赛冠军方案梳理,介绍见《Kaggle - LLM Science Exam(一):赛事概述、数据收集、BERT Baseline》
6.1.2 国内比赛
6.2 CV类比赛:
6.3 结构化比赛
- 《2021科大讯飞-车辆贷款违约预测赛事 Top1方案》
- 《KDD Cup 2021 时序异常检测(附 Top1 至 Top7思路视频 )》
- 入门数据挖掘 - 二手车交易价格预测
- 《电信客户流失预测挑战赛》、baseline
- 比赛总结:微信大数据挑战赛(内有决赛 Top1 至 Top7答辩视频 + PPT)
6.4 赛事技巧
七、工具
-
Jupyter Notebook
-
pandas
-
sns
八、深度学习、github资源
8.1 深度学习文章
8.2 github资源
-
人工智能1,2,3班资料,(d5dq)
-
中文数据增强包、参考文献:[2019-EDA]EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
九、云平台
AutoDL中,终端原始字体如下,每个字母之间都有空格,很难查看。
在jupyter设置——高级——终端里面可以更改字体集,默认是monospace,改成Consolas后效果如下:
十、colab、markdown、模型训练等
-
cloud tpu文档、colab使用方法总结、 Google Colab 使用说明(翻译)、Cloud TPU飞书总结
-
《pytorch里巧用optimizer.zero_grad增大batchsize》、苏剑林《用时间换取效果:Keras梯度累积优化器》、《【PyTorch基础教程4】反向传播与计算图》
-
markdown文档、公式格式调整(可以写作 f o r m u l a \mathbf {formula } formula)
-
防止自动断开连接
在colab页面,按Ctrl+Shit+i,打开检查页面(也可以右击鼠标,选择“检查”),并切换到控制台或terminal标签,chrome中为Console。
function ConnectButton(){
console.log("Connect pushed");
document.querySelector("#top-toolbar > colab-connect-button").shadowRoot.querySelector("#connect").click()
}
setInterval(ConnectButton,60000);
- 知乎markdown发帖:《实用攻略:将markdown格式文档发表为知乎文章》、《知乎 on VSCode 》
在知乎发布markdown格式的帖子,可以在vscode中安装插件Zhihu On VSCode。
- 登录问题:输入Ctrl + Shift + P 打开命令面板,搜索并执行 Zhihu: Login 命令登录。如果后续一直显示
你已经登录了哦~undefined
,但是发布却显示没有登录。可以在浏览器输入https://www.zhihu.com/signup 打开网页,退出登录。之后再重新输入 Zhihu: Login 命令登录- 创建目录;输入命令
- 《如何在bilibili上传markdown》(html/markdown/等多文件互转)
- markdown/word互转:《markdown转word(两种方法,实现两者互转)》、《将 Word 转换为 Markdown格式 【详细教程】》
十一、面试类、LeetCode刷题
-
刷题攻略 知识星球《代码随想录》、 datawhale力扣项目
-
Datawhale面经小组,项目地址
-
算法工程师面试分享。提取码:ftxx
十二、杂类
nvidia-smi
watch --color -n1 gpustat -cpu # 动态事实监控GPU
- ipynb文件转md:
jupyter nbconvert --to markdown notebook.ipynb
jm="jupyter nbconvert --to markdown"
jm docs/篇章4-使用Transformers解决NLP任务/4.1-文本分类.ipynb
jm docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.ipynb
- md文件转ipynb:
pip3 install jupytext --upgrade # 安装jupytext
jupytext --set-formats ipynb,md filename.md