资源分享（nlp、kaggle、pytorch、datawhale）

本文链接：https://blog.csdn.net/qq_56591814/article/details/120275443

收藏了各种文章、github资源、赛事top方案等等

在这里插入图片描述

美图开启好心情

一、.机器学习、深度学习库、优秀课程

1.1 资源库

1.2 优秀课程

1.3 优秀作者、公众号

网站《Python深度学习基于PyTorch》貌似是介绍了PyTorch官网的几乎所有内容。还有配套bilibili视频讲解《Python深度学习：基于Pytorch (合集)》
张贤笔记：《PyTorch 学习笔记汇总（完结撒花）》、 [PyTorch 学习笔记] 6.1 weight decay 和 dropout
多多笔记之《2021年如何科学的“微调”预训练模型？》
知乎：致Great、张贤同学、阿水公众号【Coggle数据科学】、鱼遇雨欲语与余公众号：Coggle数据科学、苏剑林、台运鹏
kaggle：致Great、Venkatkumar R
苏剑林个人主页、github

二、datawhale组队学习相关：

2.1 组队学习课程

优秀作业：《天国之影笔记》、于冬笔记、初晓宇笔记、胡先生笔记、pytorch视频
共读Hugging Face《扩散模型从原理到实战》
聪明办法学Python
2022年4月datawhale开源学习汇总
开源项目：深入浅出PyTorch
基于transformers的自然语言处理(NLP)入门、 nlp之情感分析（RNN/CNN/LSTM/BERT）
数据挖掘/机器学习、数据可视化（matplotlib）、动手学数据分析、清洗、重构、建模
计算机视觉（cv）、pandas数据处理与分析及讲解视频
集成学习（上）、集成学习（中）、集成学习（下）、强化学习
统计学习要素（ELS）中文翻译、代码实现及其习题解答
Datawhale三月学习：动手学深度学习（Pytorch）（23年3月）
Datawhale四月学习：Datawhale 4月AIGC - ChatGPT从入门到应用，包含吴恩达 x OpenAI官方课程《hatGPT Prompt Engineering for Developers》的视频、项目地址（包含笔记）、进阶教程 Hugging LLM
Datawhale八月学习《MMSegmentation语义分割全流程》、《科研论文配图绘制指南》

2.2 每月赛事学习：Coggle 30 Days of ML

Coggle 30 Days of ML（21年10月）、打卡石墨文档、10月活动总结（含优秀打卡汇总）、
「Coggle 30 Days of ML」11月活动总结、打卡石墨文档
「Coggle 30 Days of ML」12月活动总结、打卡石墨文档
Coggle 30 Days of ML（22年1&2月）
Coggle 30 Days of ML 虎年3月竞赛学习、3月活动总结
Coggle 30 Days of ML（22年7月）、活动总结
Coggle 30 Days of ML（23年3月）：意图识别任务，包括TFIDF、FastText、BERT、Prompt文本分类，BERT、T5和GPT原理等知识。
2023年世界人工智能创新大赛：中文网页自动导航挑战赛
Coggle 30 Days of ML（23年8月）：学习资料
- 了解GPT模型的基本原理和工作方式。
- 探索ChatGPT在自然语言处理和人工智能领域的应用。
- 理解prompt在使用ChatGPT时的重要性，以及对生成结果的影响。
- 分析优秀和低效prompt的案例，从中学习如何设计更有效的prompt。

三、NLP相关

3.1 NLP相关

3.2 transformer资源

知识蒸馏Distilled BiLSTM论文解读《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 》，原文链接。
《The Annotated Transformer》:原文以及中文翻译、datawhale地址
《Attention Is All You Need 原始论文中英文对照翻译》、 Attention is all you need的Pytorch实现
《苏神文章解析》
transformer知识点：
论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型、《A Survey of Transformers》英文pdf
深度学习论文翻译：Image Classification、Object Detection、OCR
图神经网络论文翻译及解读
刘知远老师-NLP研究入门之道
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
苏剑林博客-关于Transformers的合集
(强推)李宏毅2021春机器学习课程：重点：self- attention ，transformer，Bert
Transformer【动手学深度学习v2】（李沐bilibili视频）
张贤笔记：
- [PyTorch 学习笔记] 6.1 weight decay 和 dropout
- Pytorch：model.train()和model.eval()用法和区别

3.3 Hugging Face：

Hugging Face主页课程 1-3译文
Summary of the tokenizers
Using tokenizers from 🤗 Tokenizers
从头训练分词器，中文翻译见此贴第二节、《BPE、wordpiece、ULM三大分词原理》
Loading a Dataset，dataset拆分和切片
从头开始预训练BERT模型、《pytorch loop微调预训练模型》
在modelpoint基础上训练语言模型、中文翻译可以查看：datawhale中文教程
trainer参数设定参考：《huggingface transformers使用指南之二——方便的trainer》
huggingface transformers使用指南（更新and待续）
hugging face 官方文档——datasets、optimizer
transformers/trainer.py
社区文档：社区transformer资源、notebook

3.4 其它文章

四、CV相关

《CNN卷积神经网络》
清欢守护者《CV》（包括数据增强、cv论文、各种模型等等98篇）
太阳花的小绿豆，图像分类、目标检测等等
OpenMMLab、MMCV 中文文档、API文档
《Pillow速通教程》、pillow中文文档

五、数据挖掘

5.1 数据分析

5.2 推荐系统

六、赛事

6.1 NLP赛事

6.1.1 kaggle类

U.S. Patent Phrase to Phrase Matching（2022.3.21——2022.7.20）
Feedback Prize - Evaluating Student Writing（2021.12.14——2.22.3.15）
Though a Named Entity Recognition competition as opposed to classification, the dataset contains 11,403 additional essays and 70,763 additional essay sections.
- 数据分析.
《NBME - Score Clinical Patient Notes》（2022.2.1——2022.3.3）
《Jigsaw Rate Severity of Toxic Comments》（2021.11.8——2022.2.7）
Jigsaw Unintended Bias in Toxicity Classification | 2019/2020
Kaggle 专利匹配比赛金牌方案赛后总结
kaggle-llm-science-exam：多选问答比赛，数据由GPT-3.5生成，竞赛旨在探讨比gpt3.5小10倍以上的问答模型能否有效回答gpt3.5编写的问题（这是一个notebook比赛，不能联网，kaggle上运行的模型最多10B参数左右）。结果将揭示LLM的基准测试和自我测试能力，竞赛方案见Kaggle大模型比赛冠军方案梳理，介绍见《Kaggle - LLM Science Exam（一）：赛事概述、数据收集、BERT Baseline》

6.1.2 国内比赛

6.2 CV类比赛：

6.3 结构化比赛

6.4 赛事技巧

七、工具

Jupyter Notebook
- 《Jupyter Notebook：Python数据分析利器》
pandas
- 《速度起飞！替代 pandas 的 8 个神库》、Data Table 使用文档
sns
- 《Seaborn官网》、《Seaborn 绘制 21 种超实用精美图表》、《Seaborn入门详细教程》、《一文学会Seaborn！》

八、深度学习、github资源

8.1 深度学习文章

8.2 github资源

九、云平台

AutoDL：
- 《AutoDL使用教程：1）创建实例 2）配置环境+上传数据 3）PyCharm远程连接》
- 《AutoDL远程服务器训练配置》

AutoDL中，终端原始字体如下，每个字母之间都有空格，很难查看。
在这里插入图片描述
在jupyter设置——高级——终端里面可以更改字体集，默认是monospace，改成Consolas后效果如下：

十、colab、markdown、模型训练等

《Python环境配置保姆教程（Anaconda、Jupyter、GPU环境）》
cloud tpu文档、colab使用方法总结、 Google Colab 使用说明（翻译）、Cloud TPU飞书总结
《pytorch里巧用optimizer.zero_grad增大batchsize》、苏剑林《用时间换取效果：Keras梯度累积优化器》、《【PyTorch基础教程4】反向传播与计算图》
markdown文档、公式格式调整（可以写作 $\mathbf {formula }$ ）
防止自动断开连接
在colab页面，按Ctrl+Shit+i，打开检查页面（也可以右击鼠标，选择“检查”），并切换到控制台或terminal标签，chrome中为Console。

function ConnectButton(){
    console.log("Connect pushed"); 
    document.querySelector("#top-toolbar > colab-connect-button").shadowRoot.querySelector("#connect").click() 
}
setInterval(ConnectButton,60000);

知乎markdown发帖：《实用攻略：将markdown格式文档发表为知乎文章》、《知乎 on VSCode 》

在知乎发布markdown格式的帖子，可以在vscode中安装插件Zhihu On VSCode。

登录问题：输入Ctrl + Shift + P 打开命令面板，搜索并执行 Zhihu: Login 命令登录。如果后续一直显示 你已经登录了哦~undefined，但是发布却显示没有登录。可以在浏览器输入https://www.zhihu.com/signup 打开网页，退出登录。之后再重新输入 Zhihu: Login 命令登录
创建目录；输入命令

《如何在bilibili上传markdown》（html/markdown/等多文件互转）
markdown/word互转：《markdown转word（两种方法，实现两者互转）》、《将 Word 转换为 Markdown格式【详细教程】》

十一、面试类、LeetCode刷题

【剑指offer】高频ML/DL面试题（持续更新）
刷题攻略知识星球《代码随想录》、 datawhale力扣项目
Datawhale面经小组，项目地址
算法工程师面试分享。提取码：ftxx
学习理论基石：学习五环法录制文件
毕业三年的经验分享
知乎文章《史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案》
《超细节的BERT/Transformer知识点》
《如何理解NLLLoss?》
深度学习500问

十二、杂类

nvidia-smi
watch --color -n1 gpustat -cpu   # 动态事实监控GPU

ipynb文件转md：

jupyter nbconvert --to markdown notebook.ipynb
jm="jupyter nbconvert --to markdown"
jm docs/篇章4-使用Transformers解决NLP任务/4.1-文本分类.ipynb
jm docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.ipynb

md文件转ipynb：

pip3 install jupytext --upgrade # 安装jupytext
jupytext --set-formats ipynb,md filename.md

如何在bilibili上传markdown

资源分享（nlp、kaggle、pytorch、datawhale）

文章目录

一、.机器学习、深度学习库、优秀课程

1.1 资源库

1.2 优秀课程

1.3 优秀作者、公众号

二、datawhale组队学习相关：

2.1 组队学习课程

2.2 每月赛事学习：Coggle 30 Days of ML

三、NLP相关

3.1 NLP相关

3.2 transformer资源

3.3 Hugging Face：

3.4 其它文章

四、CV相关

五、数据挖掘

5.1 数据分析

5.2 推荐系统

六、赛事

6.1 NLP赛事

6.1.1 kaggle类

6.1.2 国内比赛

6.2 CV类比赛：

6.3 结构化比赛

6.4 赛事技巧

七、工具

八、深度学习、github资源

8.1 深度学习文章

8.2 github资源

九、云平台

十、colab、markdown、模型训练等

十一、面试类、LeetCode刷题

十二、杂类