茶桁-CSDN博客

原创柏拉图式表征：人工智能深度网络模型是否趋于一致？

人工智能模型是否正在向现实的统一表征演进？柏拉图表征假说认为，人工智能模型正在趋同。麻省理工学院最近的一篇论文引起了我的注意，因为它提出了一个令人印象深刻的观点：人工智能模型正在趋同，甚至跨越了不同的模态–视觉和语言。“我们认为，人工智能模型，尤其是深度网络中的表征正在趋同”，这是 The Platonic Representation Hypothesis (https://arxiv.org/abs/2405.07987)论文的开头。但是，在不同数据集上针对不同用例训练的不同模型如何趋同？

2024-05-24 07:45:00 617

原创 LSTM 升级了？ xLSTM 来挑战现状了

xLSTM 集成了指数门控和改进内存结构等先进功能，为基于 LSTM 的架构注入了新的活力。在人工智能领域，它是一种稳健的替代方案，尤其适用于需要高效长期依赖性管理的任务。这一演变表明，递归神经网络的未来大有可为，可增强其在实时语言处理和复杂数据序列预测等各个领域的适用性。尽管 xLSTM 有所增强，但它不太可能完全取代 Transformers，后者擅长并行处理和利用广泛注意力机制的任务。

2024-05-22 07:45:00 450

原创人工智能增强型数据管理如何实现更精确的工作流程

随着时间的推移，数据洪流只会越来越大。评估数据管理实践并利用智能技术疏通工作流程瓶颈至关重要。这为企业提出了一些基本问题：您是否拥有坚实的数据基础？您有正确的数据管理战略吗？您当前的方法是否结合了人工智能？解决这些问题可以引导您加强数据管理。有效利用人工智能数据管理工具，可以帮助您实现这一目标，将这些改进转化为您的竞争优势。这些解决方案提供了一系列功能，可帮助您从数据中提取洞察力，而无需大量的编程专业知识。

2024-05-19 07:45:00 565

原创 DataCamp 推出 DataLab：一款支持 AI 的数据笔记本

DataCamp 正在推出 DataLab，这是一款支持人工智能的数据笔记本，无论技术能力如何，都能比以往任何时候都更轻松、更快速地从数据转化为洞察力。DataCamp 将数据技能平民化的使命已转化为其领先的在线数据和人工智能学习平台。除了学习之外，直观的数据工具对于现代专业人士来说至关重要，让他们能够做出数据驱动的决策。但如今的工具常常会阻碍我们，而不是帮助我们。根据您的技能组合，您需要不同的工具（Excel、SQL 编辑器、Python 笔记本）。结果，洞察力分散在各个职能部门，协作成为一种阻碍。

2024-05-19 07:45:00 729

原创 30 个针对初学者的 Pandas 快速提示和技巧

可以使用 Pandas 中的 groupby() 函数根据一列或多列中的唯一值对 DataFrame 行进行分组。它生成一个 GroupBy 对象，该对象可应用于分组数据以执行多种操作，例如过滤、转换和聚合。‘custom_func’ 是一个自定义聚合函数，根据 ‘column’ 中的唯一值应用于每组 DataFrame ‘df’。“custom_agg” DataFrame 是通过根据提供的自定义逻辑聚合数据来创建的。

2024-05-15 07:45:00 669

原创 37. BI - 强化学习案例：自动完成游戏 Flappy Bird

PLE 是一种简化的方式，以前我们要搭建这个游戏模拟人的操作行为还需要搭建视觉系统。很多玩游戏的是前期去分析你的游戏界面，识别出来哪些是水管，哪些是鸟，这个可能就更复杂一点。现在就不需要识别它，PLE 的环境可以把中间的状态假设已经识别好了，所以有点类似于像无人驾驶一样。游戏告诉你速度是多少，你就直接去做无人驾驶的决策，Flappy Bird 的一个 action 就可以了。

2024-05-05 07:45:00 1010 2

原创 36. BI - 详细讲解机器学习分支之强化学习的概念和实际案例：迷宫问题

强化学习实际上就是训练了一个智能体，让你的智能体跟游戏去做PK。这是一个足球赛的一个例子，为了计算方面并没有把它渲染成一个真正的足球队中的人，只是用数字作为一个代表。可以看到现在这个 B 就是那个足球，球是数字来去控制的，有蓝色和红色两队，射门成功得 1 分。

2024-05-01 07:45:00 737

原创 35. BI - 利用项目「恶意软件检测」来看 GCN 和 LSTM 的对比

相信很多同学应该都或多或少的用过查毒的软件吧？那么，杀毒软件怎么查毒呢？杀毒软件其实也是要通过软件的一些特征行为来做判断，那行为的采集是由 API 来做标识的。

2024-04-28 07:45:00 717

原创 34. BI - 美国大学生足球队的 GCN 案例

在上一节课中，因为需要，我们先是回顾了一下 Graph Embedding，然后跟大家讲解了 GCN 以及其算法。虽然是推导完了，不过具体要怎么使用可能很多同学还是不太清楚，那咱们这一节课，就拿一个例子来看看具体的 GCN 该怎么去用。

2024-04-24 07:45:00 1009

原创 33. BI - Graph Embedding 回顾以及 GCN 算法介绍

「GCN」，这里的 G 就是 Graph，CN 基本上就是 CNN 差不多，是卷积神经网络。其实从名字上分析，我们知道它应该是「图卷积神经网络」。图卷积神经网络是在图的基础上做了特征的提取，这个特征提取能力对于图的特征提取来说是非常强大的一个武器，把特征提取完以后就可以用于后续的分类任务。

2024-04-21 07:45:00 735

原创 32. BI - 依据淘宝的用户行为，从 0 开始实现一个简单的移动推荐系统

曾经有过这么一句话：Embedding is all you need，这曾经是一篇论文的标题，也有很多 AI 相关的文章都会引用这句话作为标题，大家可以去 Google 一下，一搜一大片。这句话意思是 Embedding 就是你所想要的一切，这可以说明特征工程的一个重要性。

2024-04-17 07:45:00 803

原创 31. BI - 从原理到实例，详解 Node2Vec 算法

上一节课咱们讲了 Graph Embedding 的开山之作 DeepWalk, 结尾处说到，2 年之后推出来一个新的算法，就是 Node2Vec。这一节课，咱们就来讲讲这个 Node2Vec。

2024-04-14 07:45:00 1003

原创 30. BI - 详解 Graph Embedding 的 DeepWalk 算法及实例

接着上节课咱们继续来讲。上一节中咱们讲了 Graph Embedding 的一些概念以及其中比较相关的「非欧几里得数据」是什么，介绍了 Graph Embedding 三种主流的技术，图因子分解机，随机游走以及深度学习。那这节课，我们来看看 Deep Walk 算法

2024-04-10 07:45:00 663

原创 29. BI - 初接触 Graph Embedding

Graph Embedding 是一个比较重要的内容，这一部分的内容可能要讲个几节课才能完全讲完。那今天的课程大家先放松一下，这节课没那么多内容，主要来了解一下相关概念。

2024-04-07 07:47:38 608

原创 28. BI - 图论工具和算法, 社区发现以及最短路径

图，不仅仅是一个排序的问题，还有很多工具可去使用. 前几节课中给大家介绍的NetworkX, 在这个工具箱里也存在着除了PageRank以外的一些方法.咱们应该很多人都用过高德地图或者百度地图, 在图上面最经典的一个算法就是求路径.

2024-04-03 07:45:00 1731

原创 27. BI - PageRank 的那些相关算法 - PersonRank, TextRank, EdgeRank

在上一节课中, 咱们不仅做了案例, 并且说到了 PageRank 模型的影响力, 并且讲了其中一个在社交网络中应用的算法personRank. 除了PersonRank, 还有Textrank, EdgeRank.

2024-03-31 07:45:00 599

原创 26. BI - PageRank 拓展以及如何利用 networkx 来分析希拉里丑闻

上节课咱们讲解了 PageRank 的两种模型, 并分别做了代码上的演示. 这节课, 让我们来看看 PageRank 的影响力及其应用.PageRank 已经超越了原来提出来的模型, 因为 PageRank 的影响力影响到了后续很多的一些模型, 都可以采用它. 举个例子, 最早是在论文里面使用, 之后在网页里面使用, 现在还可以在社交网络里面使用.

2024-03-27 07:45:00 890

原创 25. BI - 带你详细了解十大经典机器学习模型之 Google 的基石：PageRank

我们的算法就需要有两个维度，第一个还是要匹配内容，用户检索口罩这个关键词，你的内容也要出现这个内容，这是一个充分条件。还有一个条件，我们想要对所有符合的这些网页做一个排序，按照权重排序，Rank 就代表的是排序的含义。

2024-03-24 07:45:00 919

原创 24. BI - 一篇文章带你详细理解特征工程核心：Embedding

现在我们看到 embedding 已经不仅仅是在单词的特征表达了，还有一些图的 embedding，还有很多的 item 的 embedding。你只要把它看成一个物体，可以用向量来做表达就可以把它称为叫做 embedding 的一个策略，应用场景非常的广泛。

2024-03-20 07:45:00 873

原创探索 TorchRe-ID--基于 Python 的人员再识别库

人员再识别（re-ID）是计算机视觉中的一项重要任务，在监控系统、零售分析和人机交互中有着广泛的应用。TorchRe-ID 是一个功能强大、用户友好的 Python 库，它为人员再识别任务提供了一套全面的工具和模型。在本文中，我们将探索 TorchRe-ID 的主要功能，并深入研究模型训练、评估和可视化。

2024-03-19 19:38:27 1208

原创 23. BI - 基于酒店建立内容推荐系统

内容推荐系统主要做的事情，第一个就是物体的表征，因为你要学内容的特征。这里的内容特征实际上是对某一个 item 来抽取它的 feature。还有一个就是对人来去做特征的学习。

2024-03-17 07:34:12 1233

原创解密学习机制：线性回归与梯度下降之旅

在理解机器学习机制的过程中，我们探讨了在合成数据集上训练简单线性回归模型的过程。整个过程要解决的问题是算法如何通过迭代优化来学习输入和输出变量之间的基本关系。我们的方法包括生成一个合成线性数据集，实施梯度下降进行参数估计，并使用均方误差评估模型的性能。结果表明，模型成功地学习了线性关系，这体现在迭代时损失呈下降趋势，且均方误差较低。

2024-03-16 10:09:41 640

原创 22. BI - 详细来说说 SVD 矩阵分解的三种算法

在原理上我们主要讲解的是奇异值分解 SVD，它的本质是对一个大矩阵拆成三个小矩阵，实际工作中是要抽取前 k 个特征的。这里的 k 相当于是对矩阵的一个降维，通过之前我同时那个照片的抽取可以看到，10%的特征是可以包含 90%以上的信息，这就是 SVD 的一个价值。

2024-03-13 07:45:00 655

原创 21. SVD 矩阵分解的实际案例：利用 SVD 进行图像压缩

上一节课的内容中，咱们学习了 SVD 矩阵分解的原理，并在最后提到了，矩阵其实是做运算的一个根基。这一节课，咱们就来举一个简单的示例，拿图片来举例。

2024-03-10 07:45:00 1032

原创 20. 一篇文章为你讲透 SVD 矩阵分解的原理

之前咱们花了大概 5 节课的时间学习了推荐系统中的矩阵分解，ALS 算法以及 SlopeOne 等等。这些内容都属于协同过滤的内容，除了协同过滤之外，推荐系统还有另外一种方法，就是基于内容推荐。不过首先，咱们还是得把协同过滤讲完，当然依然还是矩阵分解，不过今天我们要讲的是 SVD 矩阵分解。

2024-03-06 07:45:00 864

原创 19. 学习人工智能如何从阅读论文中获取一手信息，并推荐一些技术论文

就像我上节课结束的时候说过的，阅读论文也是一种能力。如果你想要未来获取一些新的方法，最直接的方式就看论文。怎么去阅读呢？今天详细给大家做一些分享。

2024-03-03 07:45:00 680

原创 18. SlopeOne 原始算法、优化算法的原理及应用

上节课的内容中，我们介绍了 Surprise 工具箱以及其中的 BaselineOnly，最后我们简单实现了一下。这一节课中，咱们来看看 Surprise 中的另外一个内容，SlopeOne 算法。

2024-03-01 07:45:00 1417

原创 17. BI - Surprise 工具箱：Baseline

SGD 就是怎么样去选择这个方向。方向很重要，在参数拟合过程中一个是方向，一个是步长。SGD 基本思路就是以随机方式遍历训练集中的数据，并给出每个已知评分的预测评分。用户和物品特征向量的调整就沿着评分误差越来越小的方向迭代进行，直到误差达到要求。所以 SGD 不需要遍历所有的样本即可完成特征向量的求解。

2024-02-28 15:09:42 897

原创 16. BI - 推荐系统之 ALS 实现

矩阵分解中拆矩阵的背后其实是聚类。就说 k 等于几是人工设定的，所以跟聚类概念很像。就是要把人群划分成几类，把电影划成几类。k 等于 3 是自己去设定的，也可以把它拆成 k 等于 4、k 等于 5，都是一样的，是要完成聚类任务。

2024-02-25 07:45:00 1594

原创 15. BI - 推荐系统之 ALS 原理

本文为「第 15 篇」

2024-02-21 07:45:00 655

原创 14. 推荐系统之矩阵分解

在场景过程中我们的推荐系统为什么要用矩阵分解呢？这些系统实际上有两大场景，第一个叫评分预测。我们画一个大矩阵，这个矩阵分成 user 的维度和 item 的维度。user 是由 U1、U2…，一直到可能 U100。item 是 I1、I2…，一直到 I100。现在用户和商品之间会有个评分的矩阵，可能有一些分数，还有一些分数是没有的。那么我们要做的事情就是预估他没有去打分的，猜用户会打成多少分。

2024-02-16 17:20:25 963

原创 13. 如何制作和发布一个可视化看板

咱们之前用了几节课讲解了可视化的一些使用，重点是在 Python 里面的两个工具，一个是 Matplotlib，这是一个基础的工具，还有一个高级的封装是 Seaborn。它可以帮我们画各种各样的一些图表，在工程里面也是经常会使用到。

2024-02-11 18:20:30 945

原创 12. BI - 可视化在项目蒸汽量预测的过程及应用

我们今天继续来看数据可视化做数据探索，今天我们还是来看相关项目。来看看可视化 EDA 在项目中的应用。

2024-02-07 18:54:25 605

原创 11. BI - 如何在 Python 中进行分词并展示词云

之前两节课，咱们学习了基础的数据可视化工具以及决策树的可视化。今天这节课，咱们要看到的是另外一个场景，叫做词云展示。

2024-02-04 11:56:59 759

原创 10. BI - 决策树的使用及可视化

上一节课，咱们了解了图形的具体绘制方法，接下来咱们还要看看除了图形绘制之外，还有哪些要做的可视化分析。还有一些是跟模型相关的可视化，在运算过程中我们可能会有一些模型。

2024-02-02 15:59:14 968

原创 09. BI - 数据可视化，如何进行基本图形绘制

今天想给大家讲的是关于数据的可视化。在工作中很多时候我们不光要计算结果，还要把结果呈现出来，最好是一种图形化的方式。因为这样领导会更容易去理解。

2024-01-31 13:45:58 1308

原创 08. BI - 万字长文，银行如何做贷款违约的预测，特征处理及学习

那我们之前的课程里，带来了 Fintech 的应用场景，同时又对其中一个量化交易的场景做了一个简单实验。今天，咱们来另一个 Fintech 的场景，同样也是有数据，这个数据是来自于一场比赛。

2024-01-28 10:44:14 974

原创 07. BI - 量化交易，如何编写代码来利用 MACD 决定选股策略

它的原理是要计算两条线，一个叫 MA1，一个叫 MA2, 1 是短线，2 是长线。短线就是短期的平均值，比如说过去的 10 天。长线就是长期的平均值，比如说 20 天。这两条线之间也会有个差，这个差值称为 DIFF，这个差就可以知道现在是短期大，还是长期更高。DIFF 组成的线，我们称之为 MACD 线。

2024-01-27 13:21:02 985

原创 06. 量化交易，简单的炒股策略实现

上一节课中，咱们详细的分解了 Fintech 的应用场景，也是将相关的一些业务给大家好好的梳理了一遍。那么本节课中，咱们来一起做一个实战，关于 Python 的量化交易的一个板块。

2024-01-17 14:58:09 972

原创 05. BI - 金融行业中 Fintech 的应用场景

在金融行业里有很多需要做数据分析的场景，那这些场景都有哪些，该怎么样针对不同的场景去完成，这是接下来主要讲解的内容，围绕 Fintech 金融科技的场景。

2024-01-14 16:56:39 1056

空空如也

空空如也