- 博客(2)
- 收藏
- 关注
原创 SpringDataElasticSearch自己犯的错误
最近在创建一个DEMO,是想实现RAG的。最初是想能够通过向量数据库来作为数据源的保存点的,他比起传统的ES有着很大的优势,比如好的模型生成的文本向量数据之间,如果意思相近,则距离更近,即使没有关键字命中也可以关联到相关的文本。但是,好的中文Text Embedding太难找了,就想着想用ES凑合一下,结果自己蠢了。后面的再补充吧,可能标题都会变。
2024-09-11 15:57:49
363
原创 llama3支持中文的LLM模型
(可能需要一些magic)可以在 Hugging Face上搜索查看。这个作者在llama3.1的基础上也出了一个同样的模型。
2024-08-23 09:16:31
958
1
LLM 康奈尔大学的电影对白语料库 新版
康奈尔大学的电影对白语料库(Cornell Movie-Dialogs Corpus)是自然语言处理(NLP)领域中一个极具价值的数据集,主要用于研究对话系统、情感分析、文本生成等任务。该语料库的建立旨在促进人工智能(AI)在理解和模拟人类对话方面的发展,尤其是在深度学习领域。
此数据集包含了从近700部不同类型的电影中精心提取的超过10万条双人对话,总计约300,000个独特的对话回合。每个对话都有明确的角色标识,涵盖了广泛的主题和情感,使得这个语料库能够提供丰富多样的语境和情感样本,对于训练和评估对话模型具有极高的实用价值。
在深度学习的框架下,Cornell Movie-Dialogs Corpus可以用于构建和训练神经网络模型,如循环神经网络(RNN)、长短时记忆网络(LSTM)或Transformer模型。这些模型可以学习对话的上下文依赖性,理解语境,预测对话的连贯性和逻辑性,从而实现更智能的对话系统。例如,通过使用这些模型,我们可以训练AI进行自然对话,理解用户的需求,甚至模拟人类的情感反应。
2024-08-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人