机枪射手黑芝麻-CSDN博客

原创 DateWhale零基础入门NLP之新闻文本分类学习打卡task06--kk

本次对于BERT和模型的架构通体都有了一定的认识，但是由于版本问题无法得到解决，和自身的代码水平和模型经验有关，无法快速解决问题，虽然训练其他模型得到了还好的成绩，但没有完整的适用BERT这也是这次比赛带给我的一些遗憾吧。

2023-10-08 17:54:05 143 1

原创 DateWhale零基础入门NLP之新闻文本分类学习打卡task05--kk

我们用到的内容有：wordvec进行词汇编码，TEXTCNN或TEXTRNN用于特征的提取，HAN用于文本分类，进行了一次较为完整的机器学习流程。

2023-10-07 21:14:50 151 1

原创 DateWhale零基础入门NLP之新闻文本分类学习打卡task04--kk

本次学习了fasttext,是有CPU运行的机器学习模型，同时学习了交叉验证和贝叶斯优化器的使用。

2023-10-07 09:59:49 103 1

原创 DateWhale零基础入门NLP之新闻文本分类学习打卡task01、02--kk

本次学习了数据的统计和对赛题数据的了解，同时也了解了本次学习的思路：如传统的机器学习，深度学习，大模型等。

2023-10-07 09:33:30 71 1

原创 DateWhale零基础入门NLP之新闻文本分类学习打卡task03--kk

费曼说：学习一件事情最好的方式是做它的老师，这也是写这篇博文的目的，写这篇博文，即便有其他原因，但更多的还是写给自己，话不多说，让我们开始进入NLP吧本次的内容主要还是对赛题进行一个赛题理解也就是读题的工作，并熟悉天池实验室的使用过程。同时，也是对于本次比赛数据的一个读取和熟悉的工作。由于篇幅，我们将task1和task2的学习笔记合并到同一篇文章之中，因此，本篇文章也将分上下片来进行。

2023-10-06 20:59:38 95 1

原创 DateWhale简单学点大模型课程组队学习打卡task11--kk

其实一开始，我也有这样的疑问，但在学习完本次的任务之后，我才得以了解到大模型（及数据中心）的训练使用确实会造成一定量的排放问题，进而对环境产生影响，如果你也怀着这样的疑问，就请快进入到我们的大模型与环境的课程中去吧！下面是操作实例：如下，我们输入用GTX 750 的显卡，在谷歌东亚地区上进行的训练，可以看到计算得出的碳排放量为0.14公斤的二氧化碳，需要一颗树苗将近6天的固碳时间，所以，我们不要随便的使用计算资源，这会不知不觉的进行一定量的二氧化碳排放。通常部署的是从大模型中蒸馏出来的小得多的模型。

2023-09-21 21:29:42 277

原创 DateWhale简单学点大模型课程组队学习打卡task10--kk

总而言之，提示微调是一种创新的轻量级微调方法，通过向输入添加可学习的嵌入，而不是改变整个模型结构，来优化任务特异性。这不仅减少了计算和存储需求，还可以使用更大的冻结模型来实现与全面微调相当的性能。在文本分类等任务中，提示微调提供了一种灵活高效的解决方案。引用链接：[1].Probe in NLP系列(一) - 知乎 (zhihu.com)[2].语言学 NLP模型的智慧 (topbots.com)

2023-09-20 22:09:07 99 1

原创 DateWhale简单学点大模型课程组队学习打卡task09--kk

这是对于同一大类别下的不同小类别之间的训练手段，目的是增强大类别中小类别的统一性，这是一种”

2023-09-19 22:21:57 120

原创 DateWhale简单学点大模型课程组队学习打卡task08 --kk

下面主要简述一下训练的分布式训练算法问题，实际上还是一种任务分配的问题，在软件工程系列导论书中《人月神话》中谈到的一个观点就是，一个人完成一项软件工程开发的时间并不等于十个人开发同样规模软件的时间，因为人与人之间的通信等就需要大量时间，还有队伍中人与人间协同的问题，实际的效率必然是相对减少的，单纯的按数学的方式用人。所谓数据并行，就是将数据进行切分，分配给不同的设备进行训练，同时，为了解决训练中反向传播过程中计算的梯度不一至的问题，我们还需要对梯度进行一定的调整，AllReduce。

2023-09-18 20:56:23 76

原创 DateWhale简单学点大模型课程组队学习打卡task07 --kk

本次主要学习的是大模型的目标函数和优化器，涉及到很多的细节元素。

2023-09-17 22:08:27 122 1

原创 DateWhale简单学点大模型课程组队学习打卡task06 --kk

Unicode编码方式采用4个字节表示大部分字符，编码方式理论上可以表示超过1,100,000个字符。其中包括了各种语言的字母、数字、标点符号、特殊符号、表情符号等。截止日期2021年9月，Unicode版本13.0已经发布，收录了超过143,000个字符。未来的Unicode版本将继续增加字符的数量，以覆盖更多的语言和符号。

2023-09-16 22:02:27 121 1

原创 DateWhale简单学点大模型课程组队学习打卡task05--kk

随着人工智能领域的迅速发展，模型训练所用到的数据及使用都会促使人们从法律的角度来反思以及评判该问题，立法不仅仅是法学家一个人的问题，也是社会对于某一问题的同一的认同的体现，随着受众面越来越广，涉及面越来越大，大模型及背后的相关法律也将逐步提上日程。

2023-09-15 21:49:13 83

原创 DateWhale简单学点大模型课程组队学习打卡task04--kk

这种机制是成功的，原因在于与社会的现状相契合——语言，作为人类产生的大规模的数据，本身就带有一定的规律性，而语言模型最基础架构的BERT能够通过mask填空机制，能够对这种海量的数据进行应用，最终达到了从量变到质变的伟大跨越。大模型所需的数据有着海量的显卡资源，对应着海量的数据，但是，作为机器学习的学习者，我们都知道，数据是需要经过各种处理，去掉其中错误的数据，进行数据的增强等等才能实现从生数据（raw data）到数据集（dataset）可以为机器学习使用的输入。排除的数据：医疗或健康数据，人口身份。

2023-09-14 22:05:35 62 1

qq_61783670的博客