自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Tiny-universe手戳大模型 Qwen2以及llama3介绍--task1

关于qwen2以及llama3的介绍

2024-09-18 23:41:08 533

原创 Datawhale X 李宏毅苹果书 AI夏令营 深度学习详解进阶task3

有关卷积神经网络的深度介绍

2024-09-03 01:21:57 936

原创 Datawhale X 李宏毅苹果书 AI夏令营 深度学习详解进阶task2

深度学习学习率、分类问题以及实验截图

2024-08-31 02:53:12 949

原创 Datawhale X 李宏毅苹果书 AI夏令营 深度学习详解进阶task1

优化神经网络过程中,首先,要理解为什么优化会失败,收敛在局部极限值与鞍点会导致优化失败。其次,可以对学习率进行调整,使用自适应学习率和学习率调度。最后,批量归一化可以改变误差表面。目录深度学习基础1. 局部极小值与鞍点1.1 临界点及其种类1.2 判断临界值种类的方法 我们在做优化的时候经常会发现,随着参数不断更新,训练的损失不会再下降, 但是我们对这个损失仍然不满意。图 1 中的两条曲线对应两个神经网络训练的过程。当参数对损失微分为零的时候,梯度下降就不能再更新参数了,训练就停下来了,损失不再下降了。

2024-08-27 00:49:16 596

原创 Datawhale Ai 夏令营大模型技术微调——task3

调用星火Max api完成大模型答案生成, 完成数据增强

2024-08-17 21:33:21 309

原创 Datawhale AI 夏令营大模型技术微调——task2

总结:数据清洗需要下功夫,还有学习率和迭代次数可以调整一下试试,本次我迭代了30次,学习率改成了0.0007。加数据还没有尝试过。修改了原来的代码,使其有更健壮的提取方式。修改了一下代码,这样过滤效果会更好一些。尝试了更改回答的要求。

2024-08-14 22:11:32 241

原创 Datawhale AI 夏令营大模型微调 ----task1

定义的chinese_multiple_choice_questions该函数的主要逻辑是通过正则表达式匹配和提取文本中的问题和选项。对于选择题,它提取了问题的编号、文本和选项,并将它们存储在一个字典中。对于简答题,它只提取了问题的文本,并去除了前后的空白字符。函数当前只返回了选择题列表,如果需要同时处理简答题,可以修改函数以返回两个列表。

2024-08-11 23:58:21 830

原创 关于第二届世界科学智能大赛地球科学赛道:AI极端降水预报的一些反思

模型角度, 本次baseline中仅给出了卷积模型的示例, 但是针对赛题这种与时间序列强相关的问题, 时间序列中的特征也是需要考虑的一大因素, 可以尝试使用LSTM等对时间序列特征有良好提取能力的模型作为参考(因为赛题不允许使用任何开源模型。上图就是自己尝试的手写的lstm模型,由于时间关系还没有完全跑通,还有就是relu作为激活函数的重要性,使用了别的激活函数,不能上分。尝试过修改学习率,多少有点影响,试着修改过卷积神经网络的层数对结果的影响并不大。

2024-08-04 00:00:44 193

原创 sigmoid函数在逻辑回归以及深度学习的应用

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、分类问题1.sigmoid函数介绍2.sigmoid函数在深度学习上的应用3.sigmoid函数的优缺点二、二分类逻辑回归代码1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一

2020-11-26 00:58:22 2780

原创 GAN,DCGAN详解

GAN介绍这个框架可以针对多种模型和优化算法提供特定的训练算法。在这篇文章中,我们探讨了生成模型通过将随机噪声传输到多层感知机来生成样本的特例,同时判别模型也是通过多层感知机实现的。我们称这个特例为对抗网络。在这种情况下,我们可以仅使用非常成熟的反向传播和丢弃算法训练两个模型,生成模型在生成样本时只使用前向传播算法。并且不需要近似推理和马尔可夫链作为前题。相关工作含隐变量的有向图模...

2020-02-24 23:33:28 2395

原创 深度不学习——————卷积神经网络,LeNet,AlexNet,VGG详解以及PyTorch代码实现

卷积神经网络卷积神经网络针对输入全部是图像的情况,将结构调整得更加合理,获得了不小的优势。与常规神经网络不同,卷积神经网络的各层中的神经元是3维排列的:宽度、高度和深度(这里的深度指的是激活数据体的第三个维度,而不是整个网络的深度,整个网络的深度指的是网络的层数)。举个例子,CIFAR-10中的图像是作为卷积神经网络的输入,该数据体的维度是32x32x3(宽度,高度和深度)。我们将看到,...

2020-02-18 23:50:06 2178

原创 深度不学习————Attention is all you need

Transformer The Motivation for Transformers我们想要并⾏化,但是RNNs本质上是顺序的 尽管有GRUs和LSTMs, RNNs仍然需要注意机制来处理⻓期依赖关系——否则状态之间的 path length 路径⻓度 会随着序列增⻓ 但如果注意⼒让我们进⼊任何⼀个状态……也许我们可以只⽤注意⼒⽽不需要RNN?Dot-Product...

2020-02-17 23:18:15 410

原创 深度不学习 ————Seq2seq,Attention,Machine Translation

Pre-Neural Machine Translation机器翻译(MT)是将⼀个句⼦ x 从⼀种语⾔( 源语⾔ )转换为另⼀种语⾔( ⽬标语⾔ )的句⼦ y 的任务。核⼼想法:从数据中学习概率模型。我们想要找到最好的英语句⼦ y ,给定法语句⼦ x使⽤Bayes规则将其分解为两个组件从⽽分别学习P(x|y)翻译模型分析单词和短语应该如何翻译(逼真)从并⾏数据中学习P...

2020-02-15 23:58:17 385

原创 深度不学习————LSTM,RNN,GRU模型、语言模型、双向RNN

目录RNNRNN语言模型RNN的优点RNN的缺点RNN参数说明Training a RNN Language Model如何计算?用困惑度来评估语言模型:为何关注语言模型RNN核⼼想法:重复使⽤ 相同 的权重矩阵W:传统的翻译模型只能以有限窗⼝⼤⼩的前 n 个单词作为条件进⾏语⾔模型建模,循环神经⽹络与其不同,RNN 有能⼒以语料库中所有前⾯的单词为...

2020-02-14 23:25:50 1118

原创 深度不学习——————softmax分类器

目录一、我们先谈谈线性分类器: 1.基本概念 2.有几点需要注意:3.对线性分类器的详细解释:二、线性可分SVM算法流程三、softmax分类器Softmax示意图SVM VS Softmax一、我们先谈谈线性分类器: 1.基本概念The classier must remember all of the training data and ...

2020-02-13 00:12:20 2393

原创 深度不学习——————线性回归

线性回归¶主要内容包括:线性回归的基本要素 线性回归模型从零开始的实现1.线性回归的基本要素:现在给定一个数据集,包含n个样本,x为属性表述的一个向量,维数为d,y为在向量x下的实际结果: 上式表示的是第i个样本的属性描述向量,x1到xd表示d个不同的属性。我们要利用这些属性综合...

2020-02-11 23:31:29 292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除