「已注销」-CSDN博客

原创【大语言模型】如何让ChatGPT等LLM拥有记忆

我们现在在跟ChatGPT等生成式人工智能聊天时，都需要我们给定一个上下文，生成式AI才会根据我们问题结合上下文给出回答，他们并没有任何记忆。想象一下未来我们有一个AI机器人在我们的身边，每天它的记忆都会归零，你必须跟它解释下过去发生了什么是多么痛苦的一件事。这个问题需要引入来解决，将向量数据库作为大型语言模型（LLM）如GPT-3或BERT的长期记忆使用是一种增强其功能的策略，特别适用于需要知识保留、上下文管理和从新信息中动态学习的任务。

2024-04-17 04:14:14 919

原创【大语言模型】基础：TF-IDF

是一种用于信息检索与文本挖掘的统计方法，用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要性。它是一种常用于文本处理和自然语言处理的权重计算技术。

2024-04-15 03:30:09 1441

原创【大语言模型】基础：余弦相似度(Cosine similarity)

余弦相似度使用两个向量的点积及各自向量的大小来计算。余弦相似度的公式是：A 和 B 是您正在计算相似度的两个向量。A⋅B 是向量 A 和 B 的点积。∥A∥ 和 ∥B∥ 分别是向量 A 和 B 的欧几里得范数（或大小）。

2024-04-14 14:25:40 6806 1

原创【大语言模型】轻松本地部署Stable Diffusion

大家有任何问题可以在留言区讨论。

2024-04-14 03:57:01 1042 1

原创【大语言模型】应用：10分钟实现搜索引擎

得到Similarity_matrix一共有N行，表示语料库中的文档数。还有一列，代表相似度系数。结论：本文利用Cosine_similarity比较文档的相似度，从语料库找出最佳匹配的文档。下面一篇文章我会具体分析Cosine_similarity的原理，敬请关注！第K行的相似度系数，代表用户输入的文本与语料库中第K个文档的相似程度。如果对单词的向量化，BoW概念有问题可以看下我的另一篇文章。那么和用户输入最相关的文档就是第一个了！

2024-04-14 03:23:32 1180 1

原创【大语言模型】基础：如何处理文章，向量化与BoW

文档与语料库文档是您用例的最小文本单位语料库是您的文档集合用例：考虑您正在寻找答案的典型问题查询：您将用来在语料库中搜索的文本分词器分词器是一个程序，它接收文本并将其拆分成更小的单元。一本书可以被拆分成章节、段落、句子、单词。这些都是分词过程的例子。一旦文本被分词成句子，您就可以将句子分词成单词。句子在自然语言中，文本由多个句子组成，句子之间通过如这样的标点符号分隔。然而，将文本拆分成句子仍然是一个挑战，因为一些表示缩写，例如。单词任何文本都是由单词组成的。

2024-04-12 17:49:40 1524

原创【炒股Zero To Hero】MACD金叉死叉到底是否有效，加上这个指标回报率增加197倍

移动平均收敛散度（MACD - Moving Average Convergence Divergence）是一种趋势跟踪动量指标，显示了证券价格的两个移动平均之间的关系。它用于，属于技术分析中的一类。

2024-04-11 22:16:36 5814 1

原创【理解机器学习算法】之特征选择(REF)

递归特征消除（RFE）是一种特征选择方法，用于通过递归减少特征集的大小来找出模型性能最佳的特征。RFE的工作原理是反复构建模型并选择最重要的特征（基于模型权重），然后去除最不重要的特征，直到达到指定的特征数量。这个过程依赖于模型对特征重要性的评估，通常与具有coef_或feature_importances_属性的模型一起使用，如线性模型、支持向量机或决策树。

2024-03-25 18:44:04 2362

原创【理解机器学习算法】之Clustering算法(DBSCAN)

与K-Means这样的划分方法不同，DBSCAN特别擅长于识别数据集中各种形状和大小的聚类，包括存在噪声和离群点的情况。- 如果一个点的ε-邻域包含至少MinPts，这个点被标记为**核心点**。如果不是，但它位于一个核心点的ε-邻域内，它被标记为**边界点**。- 接下来，对于每个核心点，如果它尚未被分配到一个聚类中，就创建一个新的聚类。然后，所有在其ε-邻域内的点都被添加到这个聚类中。- 形状和大小的灵活性：DBSCAN可以找到各种形状和大小的聚类，与假设聚类是球形的K-Means不同。

2024-03-22 01:18:33 689 1

原创【理解机器学习算法】之Clustering算法(Agglomerative Clustering)

是一种层次聚类算法，通过逐步合并或“聚集”它们来构建嵌套聚类。这种方法采用自底向上的方式构建聚类层次：它从将每个数据点作为单个聚类开始，然后迭代合并最接近的聚类对，直到所有数据点合并为一个聚类，或直到达到指定的聚类数量。优点：- 聚合聚类在距离和连接准则的选择上具有多样性，使其适用于各种数据集。- 它产生了一个层次结构，这对于不同规模的聚类数据结构是有信息量的。-缺点：- 对于大数据集来说，它可能计算成本高，因为它需要在每次迭代中计算和更新所有聚类对之间的距离。

2024-03-22 00:53:55 2625 1

原创【理解机器学习算法】之Clustering算法(K-Means)

K-means 算法的计算成本和时间成本主要依赖于几个因素：数据点的数量、特征的维数、质心的数量（k 值）以及算法迭代次数。算法的时间复杂度通常表示为 O(n*k*i*d)，其中 n 是数据点的数量，k 是质心的数量，i 是迭代次数，d 是特征的维数。由于这些限制，虽然 K-means 在许多情况下都是一个有用和高效的聚类方法，但在应用时需要考虑数据的特性，并可能需要尝试不同的初始质心或使用如 K-means++ 这样的方法来改进初始质心的选择。

2024-03-21 05:56:50 795 1

原创【理解机器学习算法】之分类问题的模型评估(ROC-AUC)

在实践中，为了计算ROC-AUC，你通常会使用一个工具或库函数，该函数接收真实结果和正类的预测概率，计算不同阈值下的TPR和FPR，然后对曲线进行积分以找到AUC。在不同的应用场景中，哪些是正例哪些是负例，取决于问题的具体定义和研究的目的。正例和负例的概念有助于在建立模型时提供清晰的指导，以及在评估模型性能时，特别是计算诸如准确率、召回率、精确率这样的指标时，能够有明确的评判标准。ROC-AUC得分是一个单一的标量值，总结了分类器在所有阈值下的性能，这使得它在需要评估和比较分类器时非常方便。

2024-03-20 03:53:37 2301 1

原创【理解机器学习算法】之分类问题的模型评估(基础概念)

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，希望大家一起学习，欢迎指正！

2024-03-18 19:24:44 810

原创【理解机器学习算法】之岭回归Ridge - L2 Rgularization

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，希望大家一起学习，欢迎指正！

2024-03-16 18:26:11 2248 1

原创【Preprocessing数据预处理】之Skewness

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，数据预处理是算法成功的重要因素.

2024-03-14 17:16:46 984 1

原创【Preprocessing数据预处理】之Pipeline

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，数据预处理是算法成功的重要因素。

2024-03-14 04:52:19 1477 1

原创【Preprocessing数据预处理】之Information Leakage

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，数据预处理是算法成功的重要因素。

2024-03-12 22:38:52 685 1

原创【Preprocessing数据预处理】之Scaler

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，数据预处理是算法成功的重要因素。

2024-03-12 22:04:54 648 1

原创【理解机器学习算法】之KNN（纯Python)

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，自己动手实现机器学习算法是了解算法原理的一个非常有效的方法，希望大家一起学习，欢迎指正！

2024-03-09 02:43:06 475 1

原创【理解机器学习算法】之Nearest Shrunken Centroid（纯Python）

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，自己动手实现机器学习算法是了解算法原理的一个非常有效的方法，希望大家一起学习，欢迎指正！

2024-03-05 19:47:21 1246 1

原创【理解机器学习算法】之Nearest Centroid（纯Python）

本人就职海外从事人工智能领域开发设计，Tech Leader。希望花时间总结下流行的机器学习算法，自己动手实现机器学习算法是了解算法原理的一个非常有效的方法，希望大家一起学习，欢迎指正！

2024-03-05 19:28:10 967 1

原创【Python量化】从零开始搭建量化交易平台 - 获取数据（1）申请Tushare Pro账号及调试

本系列的数据源来自Tushare Pro免费API，感谢Tushare提供专业的数据服务；注册Tushare Pro API 服务，流程十分简单直观：1.第一步，进入注册页面:https://waditu.com/register，填写相关信息；2.第二步，注册成功即可获得100积分。3.第三步，修改个人信息，获得另外20积分；对于股票行情数据，只要有120积分就可以相对高频的撸数据了，这120积分随手可得（注册成功有100积分、然后修改个人信息有20积分）4.第四步，获得Token，.

2021-02-17 23:04:31 1267

Hyman Qiu

原创【大语言模型】如何让ChatGPT等LLM拥有记忆

原创【大语言模型】基础：TF-IDF

原创【大语言模型】基础：余弦相似度(Cosine similarity)

原创【大语言模型】轻松本地部署Stable Diffusion

原创【大语言模型】应用：10分钟实现搜索引擎

原创【大语言模型】基础：如何处理文章，向量化与BoW

原创【炒股Zero To Hero】MACD金叉死叉到底是否有效，加上这个指标回报率增加197倍

原创【理解机器学习算法】之特征选择(REF)

原创【理解机器学习算法】之Clustering算法(DBSCAN)

原创【理解机器学习算法】之Clustering算法(Agglomerative Clustering)

原创【理解机器学习算法】之Clustering算法(K-Means)

原创【理解机器学习算法】之分类问题的模型评估(ROC-AUC)

原创【理解机器学习算法】之分类问题的模型评估(基础概念)

原创【理解机器学习算法】之岭回归Ridge - L2 Rgularization

原创【Preprocessing数据预处理】之Skewness

原创【Preprocessing数据预处理】之Pipeline

原创【Preprocessing数据预处理】之Information Leakage

原创【Preprocessing数据预处理】之Scaler

原创【理解机器学习算法】之KNN（纯Python)

原创【理解机器学习算法】之Nearest Shrunken Centroid（纯Python）

原创【理解机器学习算法】之Nearest Centroid（纯Python）

原创【Python量化】从零开始搭建量化交易平台 - 获取数据（1）申请Tushare Pro账号及调试

空空如也

空空如也