深度学习_TYboy123的博客-CSDN博客

深度学习

文章平均质量分 91

深度学习

文章数：24 文章阅读量：7588 文章收藏量：3

作者: TYboy123

这个作者很懒，什么都没留下…

展开

新的 ChatGPT 提示工程技术：程序模拟

但与这些方法不同的是，它寻求利用可重复的静态指令框架，允许一个函数的输出通知另一个函数，并使整个交互保持在程序的边界内。为了使这项工作以更有效的方式进行，我们可以在该任务的程序定义中合并一个独立的功能，或者在“研究新想法”或“扩展新想法”功能中提供更具体的说明。正如你所看到的，我选择更深入地研究我们的程序建议作为一个选项的垃圾发电无人机概念，总结了这个想法并让我们的程序“保存”它。到目前为止，一切都很好。我们启动了“迷你应用程序”，收到了令人振奋的欢迎消息，并看到了一个与我们的程序参数一致的功能菜单。

原创 2023-09-09 19:49:01 · 900 阅读 · 1 评论
如何在 7 分钟内黑掉 40 个网站

在这里，我们期望上传者对上传的文件进行某种处理，检查其文件扩展名并替换为可接受的文件扩展名（如 .jpeg、.jpg），以避免攻击者上传恶意代码（如您的代码）远程执行代码真的。这是一个重要的阶段，因为我倾向于要求他正式表示我已获得他的许可，可以在他的 Web 应用程序和托管该应用程序的服务器上执行完整的测试。托管网站的读取访问权限都是可用的，这意味着我可以读取所有网站的后端代码。在寻找将我的权限升级到 root 并能够造成巨大潜在损害的方法之前，我正在研究我可以使用有限用户读取哪些其他有趣的文件。

原创 2023-09-09 19:27:31 · 222 阅读 · 0 评论
探索 Wall-E 的寻路算法

这个项目建立在我之前的一项努力的基础上，我在其中证明了四种著名的寻路算法（BFS、DFS、Dijkstra's 和 A*）并没有本质上的不同，并且可以以通用的方式实现。我准备了很多输入参数和测试数据的示例，从让您调试和学习代码的非常小的部分开始，到让我们测量性能的一大块地图（来自真实的现有城市）图算法的一部分。算法，以及许多其他“实用”算法，例如拓扑排序、单源路径，这些算法对于当前的应用程序状态（因为它们适用于直接非循环图，这不是我当前使用的图类型），但我有一些想法可以在未来的改进中使用它。

原创 2023-09-09 19:18:47 · 1243 阅读 · 0 评论
Deepnote:为什么我停止使用 Jupyter Notebook

这样的开源库已经朝这个方向迈出了一步，自动生成给定数据的可视化效果，但许多人（包括我）个人发现它生成的图没有实用性或与手头的任务无关。最近，我一直在 Deepnote 上尝试我的所有 Medium 博客，该部分列出了我创建的所有笔记本。Jupyter 笔记本虽然对于单独工作的数据科学家来说是一个出色的工具，但它并不是团队协作的最佳选择，因为它们通常托管在本地桌面上。如果您最近关注我的博客，您应该已经注意到，我一直在所有项目中使用 Deepnote，它为我简化了整个数据生态系统。

原创 2023-09-01 10:30:00 · 195 阅读 · 0 评论
使用生成式 AI 和 ML 模型进行电子邮件和移动主题行优化

可以通过正确的提示轻松生成的吸引人的主题行。经过微调的 LLM 会生成多个候选主题行，并且根据主题行特征训练的预测 ML 模型会从候选主题中挑选出最有效的主题行。要生成新消息的候选主题行，请将消息内容、渠道、所需语气和目标受众群体输入到微调的 LLM 模型中。提供关于什么可以提高或降低主题行和通知标题的有效性的详细见解对于营销人员来说特别有用，因为他们编辑/定制通过上述方法生成的主题行和标题。与之前的方法类似，模型根据数据集中的原始消息和相应的打开率标签进行训练，而不是预处理数据集以提取关键特征。

原创 2023-08-30 21:06:58 · 270 阅读 · 0 评论
如何通过 LangChain 代理来提升您的法学硕士学位

他们无法访问网络上的任何服务来为我们提供更准确和最新的答案，相反，他们应该使用其创建者多年前收集的培训数据来回答。代理获取可供其使用的工具列表，并且它将请求使用一个、多个或不使用。一个工具的例子是 Google 搜索功能，它允许法学硕士使用 Google 搜索检查他们没有的一些信息。然而，法学硕士编写的代码也经常是错误的——其方式很难被发现——因此他们需要持续的人工监督。法学硕士并不是进行代码生成式人工智能的唯一方法：通过使用强化学习来编写保证编译、运行和正确的代码，可以实现完全自主的代码编写。

原创 2023-08-30 21:02:29 · 115 阅读 · 0 评论
10 个杀手级 Python 自动化脚本

然后，您可以尝试这个自动脚本，它将扫描您的文本并纠正语法错误。这个很棒的脚本使用 Happtransformer 模块，这是一个经过训练的机器学习模块，用于修复文本中的语法错误。通过以下自动化脚本，您不仅可以使用Python来优化视频，还可以使用它来优化图像。这个很棒的脚本将帮助您纠正文本中的拼写错误。您可以使用下载软件从互联网上下载照片或视频，但现在您可以使用 Python IDM 模块创建自己的下载器。这个出色的自动化脚本可以帮助您更好地处理图像，并且您可以像在 Photoshop 中一样编辑它们。

原创 2023-08-25 11:15:00 · 126 阅读 · 0 评论
是时候告别 pd.read_csv() 和 pd.to_csv()

但是，要从 Dask 和 DataTable 创建 CSV，我们首先需要将给定的 Pandas DataFrame 转换为各自的 DataFrame，然后将它们存储在 CSV 中。在这两种情况下，Datatable 在 Pandas 中生成 DataFrame 所需的时间最短，可提供高达 4 到 5 倍的加速 - 使其成为迄今为止最好的选择。然而，当我们超过一百万行时，Dask 的性能就会恶化，生成 Pandas DataFrame 所需的时间比 Pandas 本身要多得多。

原创 2023-08-24 11:15:00 · 122 阅读 · 0 评论
如何通过 Keras 中的活动正则化减少泛化误差

我们将配置该层以使用线性激活函数，以便我们可以对原始输出进行正则化，然后在该层的正则化输出之后添加一个 relu 激活层。尽管活动正则化最常用于鼓励自动编码器和编码器-解码器模型中的稀疏学习表示，但它也可以直接在普通神经网络中使用，以达到相同的效果并提高模型的泛化能力。在定义模型之前，我们将数据集分为训练集和测试集，使用 30 个示例来训练模型，使用 70 个示例来评估拟合模型的性能。例如，您可以在层上指定函数和正则化，在这种情况下，激活正则化将应用于激活函数的输出，在本例中为修正。

原创 2023-08-17 21:21:48 · 211 阅读 · 0 评论
如何提高深度学习性能

例如，与调整最佳性能算法的参数相比，新的问题框架或更多数据通常会给您带来更多回报。为了充分利用给定的方法，您确实需要深入了解每个参数的含义，然后针对您的问题进行网格搜索不同的值。早期停止是一种正则化，用于抑制训练数据的过度拟合，并要求您在每个时期监控模型在训练和保存的验证数据集上的性能。事实上，通过组合多个“足够好”模型的预测，而不是多个高度调整（且脆弱）的模型的预测，通常可以获得良好的性能。通常，使用简单的线性方法（例如学习如何对不同模型的预测进行加权的正则回归）可以获得比预测平均值更好的结果。

原创 2023-08-17 21:19:08 · 550 阅读 · 0 评论
您的第一个使用 Keras 的 Python 深度学习项目

在输出层上使用 sigmoid 可确保网络输出介于 0 和 1 之间，并且可以轻松映射到 1 类的概率，或者捕捉到默认阈值 0.5 的任一类的硬分类。相反，您的模型中总会出现一些错误。后端会自动选择表示网络的最佳方式，以便在您的硬件（例如 CPU、GPU，甚至分布式）上运行进行训练和预测。这只会让您了解数据集建模的效果如何（例如，训练精度），但不知道算法在新数据上的表现如何。运行此示例，您应该会看到 150 个时期中每个时期的一条消息，打印损失和准确性，然后是对训练数据集上的训练模型的最终评估。

原创 2023-08-17 21:15:22 · 244 阅读 · 0 评论
GPT-4 如何为我编写测试

在于它是在一组数据上进行训练的，如果该数据存在某种问题（甚至可能随着时间的推移），例如不再是最新的、变得无效/不正确等。的标准测试——提供给法学硕士的数据有许多匹配的结果（标记）来获得正确预测的“信心”，而且它确实做出了工作很简单——10秒。我们以前都见过这样的情况——代码覆盖率不断下降的项目——部署起来越来越可怕，而且像朝鲜一样可预测。ChatGPT — 每个人都在谈论它，每个人都有自己的观点，玩起来很有趣，但我们不是在这里。你是对的，对此感到抱歉，让我为你修复它.. <产生最糟糕的代码>

原创 2023-08-14 21:31:20 · 1244 阅读 · 0 评论
指南 4：使用 JAX 进行研究项目

然而，重要的是，每个模型都有非常不同的训练和验证步骤。因此，在本指南中，我们构建了一个更简单版本的 PyTorch Lightning 训练器，它总结了几乎所有模型所需的所有训练、日志记录等行为，并且允许使用比从头开始少得多的行数来训练各种模型。为了找到非常强大的超参数集，一个好的做法是使用自动超参数调整，我们接下来将简要回顾一下以展示 Trainer 模块的灵活性。为此，PyTorch Lightning 提供了在训练期间的不同阶段调用的函数，我们可以类似地将其集成到我们的 Trainer 模块中。

原创 2023-07-30 17:36:24 · 120 阅读 · 0 评论
指南 3：在 PyTorch 中调试

然而，在某些情况下，PyTorch 不会抛出错误，因为未对齐的维度（不幸的是）具有相同的大小。如果你接受输入x尺寸的B \times d_{in}（B是批量维度），并且在您的超参数设置中， B=d_{in}，您最终可能会在错误的维度上执行矩阵乘法，而 PyTorch 未检测到它。在上面的语言示例中，模型会认为“a”比“o”更接近“b”，尽管“a”和“o”都是人声，并且“a”和“b”的接近程度并不相同。如果您定义类似的参数，您的模型将不会在 GPU 上注册该参数，因为“.to”运算符会创建一个新的张量。

原创 2023-07-30 17:26:05 · 142 阅读 · 0 评论
ChatGPT 的 10 个最佳替代品：开发者版

如果使用得当，这些替代方案可以执行无数耗时的活动，例如解释编程概念、编写复杂的代码、查找代码中的错误、提供软件开发的最佳实践等等。对于开发人员来说，它是一款出色的人工智能工具，因为它是一个生成训练模型，是使用 GitHub 公共存储库中的数万亿行代码构建的。但这里有一些我们确实知道的事情：Bard 建立在现代的、基于研究的大型语言模型 (LLM) 之上，它是 LaMDA 的组织和升级版本。Tabnine AI 的有趣之处在于，它不仅可以在 IDE 上运行，还可以在您的计算机上、云端、服务器上甚至离线运行。

原创 2023-07-31 11:45:00 · 444 阅读 · 0 评论
新生深度学习面试问题

在输入层和输出层之间具有多个层的人工神经网络（ANN）被称为深度神经网络（DNN）。深度神经网络是使用深度架构的神经网络。术语“深度”是指具有更多层数和单层单元数的函数。通过添加更多更大的层来捕获更高级别的模式，可以创建更准确的模型。下图描绘了一个深度神经网络。人工神经网络的激活函数是为了帮助网络学习数据中的复杂模式而引入的函数。与我们大脑中基于神经元的模型相比，激活函数负责确定在过程结束时要向下一个神经元发射什么。在人工神经网络中，激活函数执行相同的工作。

原创 2023-07-30 15:30:00 · 81 阅读 · 0 评论
具有源代码的前 20 个深度学习项目

如果您是机器学习新手，您能做的最好的事情就是集思广益，讨论深度学习项目的想法。然后，将发现的对象的坐标提供给裁剪并将检测到的对象存储在另一个列表中。游戏行业中的活动识别、动作捕捉和增强现实、训练机器人以及游戏机的动作跟踪只是了解人的方位的现实应用中的一小部分。由于存在许多外部因素，例如商店的位置、季节性、商店附近或竞争地位的变化、消费者和商品数量的巨大差异等，建立预测模型来估计商店商品需求是很困难的。在本文中，我们将介绍一些有趣的深度学习项目想法，初学者和经验丰富的人都可以用它们来测试他们的技能。

原创 2023-07-29 04:45:00 · 105 阅读 · 0 评论
有监督深度学习算法简介！

在深度学习之前，最好的计算机视觉算法依靠传统的机器学习和图像处理获得了25%的错误率。但是，当深度神经网络用于图像处理时，错误率下降到了 16%，而现在随着深度学习算法的进步，错误率下降到了 4% 以下。我们进一步分离网络并根据问题的复杂性添加大量隐藏层并将所有内容连接起来，就像人脑将所有内容互连一样，这就是输入值通过所有隐藏层进行处理然后得到输出的方式。人脑有数十亿个神经元，每个神经元都由一个细胞体组成，负责计算信息，将信息传递给隐藏的神经元，并提供最终的输出。模式识别是对数据中模式和规律的自动识别。

原创 2023-07-27 21:27:24 · 302 阅读 · 0 评论
7 个必须了解的深度学习算法

此外，RNN 可以从先前的输入中学习，从而使它们能够随着更多的接触而不断发展。DBN 各层遵循自上而下的方法，允许整个系统进行通信，RBM 层提供了一个强大的结构，可以根据不同类别对数据进行分类。然后它处理新数据，评估必要的部分，并用新数据替换以前的不相关数据。他们对输入进行编码，将其调整为更小的单元，然后对其进行解码以生成修改后的版本。它们能够进行无监督学习，并且可以通过特定数据集进行训练来创建新的数据实例，从而自行生成结果。要选择合适的深度学习方法，考虑数据的性质、当前的问题和期望的结果至关重要。

原创 2023-07-27 21:09:41 · 394 阅读 · 0 评论
指南 2：使用 PyTorch 进行研究项目

当您尝试使用最佳超参数再次运行模型时，您不希望出现意外情况（相信我，有足够多的人遇到此问题，并且它也可能发生在您身上）。与结果规模相比，您预期的噪音越大，您需要运行的模型版本就越多，才能在设置之间获得统计上显着的差异。，可以找到给定 GPU 的最大可能批量大小（如果您有非常深的大型模型，并且很明显您需要尽可能最大的批量大小，则很有帮助）。如果您想安全起见并使用 git，您甚至可以打印/保存当前所在的 git 提交的哈希值，以及对文件所做的任何更改。请注意，此模板假设您可能有多个不同的任务和多个不同的模型。

原创 2023-07-26 20:28:06 · 66 阅读 · 0 评论
指南 1：使用 Lisa 集群

如果您忘记了它，则会阻止其他学生的计算节点并浪费 UvA 支付的学分因此，仅对简短的作业/脚本使用交互式会话，例如，如果您想调试脚本是否开始运行并训练模型。一旦有足够的资源（即批处理节点）可用于您的作业，系统就会从队列中取出您的作业，并将其发送到批处理节点来执行。不过，不要指定不必要的长时间，因为这会导致您的作业被稍后安排（如果其他人也想使用集群，您需要在队列中等待更长的时间）。如果您的作业正在运行，但未创建 slurm 输出文件，请检查您的作业文件中指定的输出文件的路径是否实际存在。

原创 2023-07-26 20:26:22 · 68 阅读 · 0 评论
初级数据科学家的数据可视化指南

在这篇文章中，我想教您一些选择正确的可视化工具的直觉，以及如何使您的图表更美观。如果您的数据不显示线性关系，则将其转换为任何不同的非线性标度（例如对数标度）被认为是一个很好的做法。在这篇文章中，我试图向您快速回顾一下如何选择正确的图表，最重要的是一些指导原则，以确保您创建的视觉效果简洁易读。在选择图表来呈现数据之前，您需要知道要显示多少个变量、要显示多少数据、您的变量是连续的还是离散的？附带说明一下，如果其中一个轴的单位是“百万”，请避免使用“m”，因为它表示米，而“M”则表示罗马数字中的千。

原创 2023-07-26 10:45:00 · 71 阅读 · 1 评论
生物学中的机器学习——生物信息学

遗憾的是，我们的算法的灵敏度、准确性和具体性之间总是存在权衡，因此，作为科学家，您需要决定哪一个更重要。由于不同的算法在不同的数据集之间表现不同，因此我们必须评估创建的分类器。为此，我们将数据集划分为更小的数据集，并检查它在其中一个数据集（“测试集”）上的表现。SVM：在SVM中，我们找到一个将空间一分为二的超平面，空间可以是多维的，并且划分数据的函数不必是线性的。这会在我们的数据中创建不同的训练集来评估算法的性能。您可以测试不同的模型，总结每次训练的整体性能（灵敏度、准确性和特异性）并选择最好的模型。

原创 2023-07-25 22:05:33 · 186 阅读 · 0 评论
深度学习简介：第 1 部分

这就是梯度下降的工作原理：如果您可以在所有权重上定义一个反映期望输出和计算输出之间差异的函数，那么当 MLP 的输出与期望输出匹配时，该函数将是最低的（即山底。深度学习是机器学习的一个子领域，它使用称为人工神经网络 (ANN) 的算法，该算法受到大脑结构和功能的启发，并且能够进行自学习。支票上印刷的帐户和路由号码）的 MLP 将由输入网格组成，用于读取数字的各个像素（例如，9×12 位图），后面是一个或多个隐藏层，最后是 10 个输出神经元，用于指示在输入 (0-9) 中识别了哪个数字（图 8。

原创 2023-07-25 21:49:30 · 168 阅读 · 0 评论

深度学习

作者: TYboy123

新的 ChatGPT 提示工程技术：程序模拟

如何在 7 分钟内黑掉 40 个网站

探索 Wall-E 的寻路算法

Deepnote:为什么我停止使用 Jupyter Notebook

使用生成式 AI 和 ML 模型进行电子邮件和移动主题行优化

如何通过 LangChain 代理来提升您的法学硕士学位

10 个杀手级 Python 自动化脚本

是时候告别 pd.read_csv() 和 pd.to_csv()

如何通过 Keras 中的活动正则化减少泛化误差

如何提高深度学习性能

您的第一个使用 Keras 的 Python 深度学习项目

GPT-4 如何为我编写测试

指南 4：使用 JAX 进行研究项目

指南 3：在 PyTorch 中调试

ChatGPT 的 10 个最佳替代品：开发者版

新生深度学习面试问题

具有源代码的前 20 个深度学习项目

有监督深度学习算法简介！

7 个必须了解的深度学习算法

指南 2：使用 PyTorch 进行研究项目

指南 1：使用 Lisa 集群

初级数据科学家的数据可视化指南

生物学中的机器学习——生物信息学

深度学习简介：第 1 部分