自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 链表的学习

用python来写链表,个人认为是通过python自己的代码来模拟c++或c语言来编写的链表。创建链表的方式虽然在语言上有所不同,但是本质上还是一样的。每个链节点可以说是分为数据域与指针域,指针域中一般存储的是指向下一个节点的指针。

2023-10-19 21:20:41 108

原创 大模型之环境

环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少,但它正在快速增长。大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?

2023-09-21 19:59:23 231 1

原创 大模型之Adaptation

探测作为一种强大的分析工具,通过冻结语言模型表示编码器(上图中灰色部分)和优化特定任务的探针(上图中预测头,蓝色部分)来工作。这些模型可以是线性的或浅前馈预测头,提供了一种灵活的方法来理解和解释深度学习模型的内部工作机制。固定长度表示的策略也进一步促进了这一目的,提供了灵活而有效的解决方案。冻结(灰色):无需任何操作。优化(蓝色,每个任务有所不同):语言模型的所有参数,外加一个新的预测头。微调是一种强大的工具,可以使预先训练的语言模型更好地符合人类的期望和需求。

2023-09-20 17:04:25 266 1

原创 新的模型架构

今天主要学习基于检索的模型,以及拓展学习了一下cv方面的Transformer-vit,混合专家模型由于我的能力不足,只能放在后面再进行回顾。

2023-09-19 23:18:43 131 1

原创 分布式训练

随着时代的发展,深度学习被应用到许多领域,包括计算机视觉,语言理解,语言识别以及广告推荐等。这些领域的共同特点是,模型越来越大。但是随着规模的扩大,对硬件的提出更高的要求。然而对于单一设备,由于处理器与内存之间的不匹配,也就是内存墙限制。为了处理这个问题,人们采用多节点集群进行分布式训练。下面是部分采用分布式训练的模型。Transformer:Transformer 是一种用于自然语言处理任务的重要模型,如机器翻译和语言模型。

2023-09-18 16:59:43 79

原创 大模型的训练

我们研究三类语言模型的目标函数:这个就是我们模型所定义的条件分布:p(xi+1∣x1:i)=softmax(Eϕ(x1:i)i).p(x_{i+1} \mid x_{1:i}) = softmax(E \phi(x_{1:i})_i).p(xi+1​∣x1:i​)=softmax(Eϕ(x1:i​)i​).设θ\thetaθ是大语言模型的所有参数。设DDD是由一组序列组成的训练数据。然后,我们可以遵循最大似然原理,定义以下负对数似然目标函数:O(θ)=∑x∈D−log⁡pθ(x)=∑x∈D∑i=1

2023-09-17 23:32:08 156 1

原创 大模型的构架

与仅仅根据频率进行拆分不同,一个更“有原则”的方法是定义一个目标函数来捕捉一个好的分词的特征,这种基于目标函数的分词模型可以适应更好分词场景,Unigram model就是基于这种动机提出的。分词结果 T=(1,2),(3,4),(5,5) 表示将字符串拆分成三个子序列: ,,(𝖺,𝖻),(𝖺,𝖻),(𝖼)。该模型的具有编码端,解码端两个架构的共同的优点,对于每个 xi ,上下文向量表征可以双向地依赖于左侧上下文 x1:i−1 ) 和右侧上下文 ( xi+1:L ),可以自由的生成文本数据。

2023-09-16 23:23:33 330 2

原创 大模型法律

需要指出的是,公平学习常常是机器学习领域的一个子领域或者一个特定的问题领域,它致力于解决机器学习中的公平性和偏见问题。因此,公平学习和机器学习是相辅相成的概念。该规定是欧盟法律关于数据隐私的一部分,于2016年通过,2018年开始执行。知识产权包括:版权,专利,商标,商业秘密。例如:维基百科,开放课程,可汗学院等无私开放的资源。公平学习(Fair learning)与机器学习在某种程度上是相关的概念,但又有一些差异。但是服务条款可能还会增加其他的限制,例如youtube的服务条款就禁止下载视频。

2023-09-16 00:02:32 74 1

原创 大模型的数据

其次,数据集的选择和过滤也可能导致损害,以C4为例,大概只有10%被保留,其中Common Crawl涉及性取向的数据更容易被过滤。据估计,英语人口数量排名第二、第三和第四的国家——印度、巴基斯坦、尼日利亚和菲律宾,尽管有数千万讲英语的人,但它们的网址只有美国的 3.4%、0.06%、0.03%、0.1%。WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

2023-09-15 10:26:35 582

原创 大模型的有害性下

有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。然而,在我们深入讨论之前,需要指出的是,语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。然而,这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要将这些伤害视为文本的属性,而是需要从更广泛的社会语境中考虑。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。

2023-09-13 22:42:58 347

原创 大模型的有害性(上)

在我的了解中,对性别的划分,不仅仅是从染色体上出发的,他们判断的标准是一个人的自我认知,一个人认为自己是什么类型的,然后再在原有染色体的基础上进行划分。我认为从上面的实验结果可以看出,名字偏见和刻板印象对大模型的评分有较大的影响。新兴技术的危害:大模型的能力所展现的潜力,会为目前开创性的大模型所广泛采用,但是我们在使用他们的同时,我们也要注意它们所可能造成的危害。我认为在大模型的训练中,这些偏见与刻板印象算是一个隐藏的变量,如果无法将他们进行纳入大模型的训练中,那么所训练出来的大模型绝对不是最好的。

2023-09-13 22:31:48 100

原创 大模型的能力篇

这时我们会对每一个单词分配概率,此时这一条序列的概率就是他们的联合分布概率了,每一个单词的概率就是在这个条件下的条件概率。ps:(根据困惑度的计算公式,这个表达式应该是对2取对数)有个例子很直观:一个长度为3的二进制的字符串可以编码2的3次方,暨8个可能的字符串。在文中提到说“一个优秀的语言模型总是可以准确的预测测试数据中的词序列,因此他的困惑度很低。”以我看来,因为P(x1,x2,...,xN)这个概率越大,代表他预测的可能性更高,而后因为负次方的存在,它处分母的位置,分母越大,分数越小,困惑度越小。

2023-09-12 20:27:43 413

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除