自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 书生·浦语大模型实战营 第三课作业

知识库(也不一定是文档)是新增知识数据检索的来源之一,不需要额外训练就能回答新的问题是RAG重要优势之一。数据库向量化的过程应用到了Langchain的相关模块(普通量化工作是我研究生阶段比较熟悉的领域,可以深入看看)4. 判断句子是否是个有主题的疑问句,判断标准:有主谓宾并且是疑问句得10分,否则扣分。除了语料库的向量数据库,茴香豆还需要建立接受和拒答两个向量数据库,用于在检索过程中更精确的判断提问的相关性,分别是。7. 根据问题和材料的关联度进行打分,得分8.0,该问题与材料有较高的关联度。

2024-04-13 18:46:59 1321

原创 书生·浦语大模型实战营 学习笔记 第三课

关键词: 固定长度的向量, 实现高效的相似性检索,余弦相似度或者点乘。当出现大规模数据或者实时响应要求很高时,vectorDB的优化很多时候都是对向量表示的优化。基本方法:使用更高级的文本编码技术,或者是用更好的预训练模型。

2024-04-11 23:55:11 1819

原创 书生·浦语大模型实战营 第二课作业

Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库。目前已经共享了超100,000个预训练模型,10,000个数据集,变成了机器学习界的github。创建test.py文件,将下列代码粘贴入文件,其中C:/Users/tingt可以换成您的local地址,请注意Linux下必须使用绝对路径。本地已经可以看到config.json了。给定一组文字,进行图文并茂的创作。模型下载(在本地机器上尝试)

2024-04-04 18:09:58 263

原创 书生·浦语大模型实战营 学习笔记 第二课

这一讲主要聚焦如何进行demo实战,具体tutorial参考。

2024-04-04 17:12:01 1766

原创 书生·浦语大模型实战营学习笔记 第一课

回归到语言建模的本质,即是基于输入给定的context,预测接下来的token。最关键的点是运用高质量的语料,让模型学习出更好的建模能力。现在InternML已经更新到了2.0。

2024-04-04 10:09:09 334

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除