大语言模型与ChatGPT
文章平均质量分 77
Thinking in Stock
Deep Mind
展开
-
【大语言模型】如何让ChatGPT等LLM拥有记忆
我们现在在跟ChatGPT等生成式人工智能聊天时,都需要我们给定一个上下文,生成式AI才会根据我们问题结合上下文给出回答,他们并没有任何记忆。想象一下未来我们有一个AI机器人在我们的身边,每天它的记忆都会归零,你必须跟它解释下过去发生了什么是多么痛苦的一件事。这个问题需要引入来解决,将向量数据库作为大型语言模型(LLM)如GPT-3或BERT的长期记忆使用是一种增强其功能的策略,特别适用于需要知识保留、上下文管理和从新信息中动态学习的任务。原创 2024-04-17 04:14:14 · 503 阅读 · 0 评论 -
【大语言模型】基础:TF-IDF
是一种用于信息检索与文本挖掘的统计方法,用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要性。它是一种常用于文本处理和自然语言处理的权重计算技术。原创 2024-04-15 03:30:09 · 1126 阅读 · 0 评论 -
【大语言模型】基础:余弦相似度(Cosine similarity)
余弦相似度使用两个向量的点积及各自向量的大小来计算。余弦相似度的公式是:A 和 B 是您正在计算相似度的两个向量。A⋅B 是向量 A 和 B 的点积。∥A∥ 和 ∥B∥ 分别是向量 A 和 B 的欧几里得范数(或大小)。原创 2024-04-14 14:25:40 · 4338 阅读 · 1 评论 -
【大语言模型】轻松本地部署Stable Diffusion
大家有任何问题可以在留言区讨论。原创 2024-04-14 03:57:01 · 675 阅读 · 1 评论 -
【大语言模型】应用:10分钟实现搜索引擎
得到Similarity_matrix一共有N行,表示语料库中的文档数。还有一列,代表相似度系数。结论:本文利用Cosine_similarity比较文档的相似度,从语料库找出最佳匹配的文档。下面一篇文章我会具体分析Cosine_similarity的原理,敬请关注!第K行的相似度系数,代表用户输入的文本与语料库中第K个文档的相似程度。如果对单词的向量化,BoW概念有问题可以看下我的另一篇文章。那么和用户输入最相关的文档就是第一个了!原创 2024-04-14 03:23:32 · 693 阅读 · 1 评论 -
【大语言模型】基础:如何处理文章,向量化与BoW
文档与语料库文档是您用例的最小文本单位语料库是您的文档集合用例:考虑您正在寻找答案的典型问题查询:您将用来在语料库中搜索的文本分词器分词器是一个程序,它接收文本并将其拆分成更小的单元。一本书可以被拆分成章节、段落、句子、单词。这些都是分词过程的例子。一旦文本被分词成句子,您就可以将句子分词成单词。句子在自然语言中,文本由多个句子组成,句子之间通过如这样的标点符号分隔。然而,将文本拆分成句子仍然是一个挑战,因为一些表示缩写,例如。单词任何文本都是由单词组成的。原创 2024-04-12 17:49:40 · 1287 阅读 · 0 评论