- 博客(5)
- 收藏
- 关注
原创 书生·浦语大模型实战营 第三课作业
知识库(也不一定是文档)是新增知识数据检索的来源之一,不需要额外训练就能回答新的问题是RAG重要优势之一。数据库向量化的过程应用到了Langchain的相关模块(普通量化工作是我研究生阶段比较熟悉的领域,可以深入看看)4. 判断句子是否是个有主题的疑问句,判断标准:有主谓宾并且是疑问句得10分,否则扣分。除了语料库的向量数据库,茴香豆还需要建立接受和拒答两个向量数据库,用于在检索过程中更精确的判断提问的相关性,分别是。7. 根据问题和材料的关联度进行打分,得分8.0,该问题与材料有较高的关联度。
2024-04-13 18:46:59 1321
原创 书生·浦语大模型实战营 学习笔记 第三课
关键词: 固定长度的向量, 实现高效的相似性检索,余弦相似度或者点乘。当出现大规模数据或者实时响应要求很高时,vectorDB的优化很多时候都是对向量表示的优化。基本方法:使用更高级的文本编码技术,或者是用更好的预训练模型。
2024-04-11 23:55:11 1819
原创 书生·浦语大模型实战营 第二课作业
Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库。目前已经共享了超100,000个预训练模型,10,000个数据集,变成了机器学习界的github。创建test.py文件,将下列代码粘贴入文件,其中C:/Users/tingt可以换成您的local地址,请注意Linux下必须使用绝对路径。本地已经可以看到config.json了。给定一组文字,进行图文并茂的创作。模型下载(在本地机器上尝试)
2024-04-04 18:09:58 263
原创 书生·浦语大模型实战营学习笔记 第一课
回归到语言建模的本质,即是基于输入给定的context,预测接下来的token。最关键的点是运用高质量的语料,让模型学习出更好的建模能力。现在InternML已经更新到了2.0。
2024-04-04 10:09:09 334
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人