自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (4)
  • 收藏
  • 关注

原创 Windows上电到登录:生物识别

这只是一个框架性的示例,实际的实现会复杂得多,尤其是在处理具体硬件设备、同步数据流、错误处理和安全性等方面。开发实际的 Windows Hello 兼容驱动程序需要深入的 Windows 内核开发经验,并与硬件制造商提供的 SDK 和文档配合使用。

2024-08-29 18:01:36 944

原创 谈一谈TVM编译工程师的修炼手册

TVM 之所以被称为编译器,是因为它提供了从模型表示到硬件特定代码生成的完整编译链。在这个过程中,TVM 执行了诸如优化、调度、代码生成等传统编译器的任务,并最终生成了可以在目标硬件上高效运行的代码。每次加载和运行 ONNX 模型时,如果有变化或需要优化,可能会重新编译代码以适应新的硬件配置或运行时环境。编译工程师的工作涉及编译器的开发、硬件适配、代码优化以及性能调优等多个方面。特别是在 NPU 这样的硬件平台上,编译工程师的工作对充分利用硬件资源、提升深度学习模型的执行效率至关重要。

2024-08-15 09:50:53 1046

原创 windows 安装TVM

TVM支持在Windows环境下使用,但需要一些额外的配置。以下是如何在Windows Python环境中安装TVM的详细步骤。

2024-08-14 17:01:23 689

原创 计算图优化有哪些=>举例说明

计算图优化在提升深度学习模型执行效率上发挥着至关重要的作用。TVM通过多种优化策略,如常量折叠、算子融合、子图分割和内存优化,实现了高效的模型推理能力。相比于框架级和手写代码优化,TVM提供了更高的灵活性和自动化能力,特别适合异构计算环境和不同硬件后端的需求。

2024-08-14 15:14:01 521

原创 FasterTransformer 与 GPT 异同

该代码通过使用FasterTransformer库,实现了BERT模型在Triton推理服务中的高效推理。代码主要展示了如何使用MPI和NCCL进行多GPU设备之间的通信和同步,以实现模型的并行化。整个推理过程包括模型的初始化、数据的准备、前向传播以及性能测试。这段代码展示了如何将BERT模型部署在高性能计算环境中,并结合Triton服务进行推理加速,是大规模深度学习模型部署的一个优秀示例。

2024-08-13 15:19:25 1072

原创 `ncclComm` 结构体说明:是 NCCL(NVIDIA Collective Communications Library)中的一个核心数据结构

结构体是 NCCL(NVIDIA Collective Communications Library)中的一个核心数据结构,用于表示一个通信器(communicator)。通信器是 NCCL 中进行多 GPU 通信的基本单位。这个结构体包含了用于管理通信、设备信息、内存分配、算法选择等的各种字段。结构体涵盖了与 NCCL 通信器相关的各个方面,从内存管理、设备信息、通信通道、算法选择、错误处理到资源管理等各个模块。每个字段在不同的模块和流程中起到了至关重要的作用,确保了 NCCL 的高效和可靠运行。

2024-08-13 13:05:04 719

原创 随笔008-端侧部署LLM

不同模型的架构适合于不同类型的任务,从文本处理到图像分类,从单语言到多语言,从单模态到多模态,都有对应的著名模型支持。如果模型大小和内存占用超过了系统的承受能力,你可能需要考虑在云端或高性能计算集群上运行模型,或者使用更小的模型来进行实验。:Llama 8B 模型在 CPU 上运行时,可能会消耗几十 GB 的内存,具体取决于模型的大小及其生成任务的复杂性。: 如果加载完整的 Llama 8B 模型在你的系统上不可行,考虑使用更小的模型(例如 7B 或 2.7B),这样可以减轻内存和计算的压力。

2024-08-09 15:06:18 888

原创 简述cuBLAS相关函数原型(附属工具): 矩阵乘法函数 `cublasSgemm` 和 `cublasDgemm` + 复数矩阵乘法函数 `cublasCgemm` 和 `cublasZgemm`

这两行代码将和重定向到它们的 v2 版本和。这样,当程序中调用或时,实际上调用的是 v2 版本。这两行代码将和重定向到它们的 v2 版本和。这样,当程序中调用或时,实际上调用的是 v2 版本。

2024-07-29 10:38:54 747

原创 TVM、LLVM、CUDA 是三个不同的项目或技术

TVM:主要用于优化和部署深度学习模型,支持多种硬件后端,包括CPU和GPU。LLVM:一个通用的编译器框架,用于开发编译器和相关工具,支持多种编程语言和硬件架构。CUDA:NVIDIA的并行计算平台和编程模型,用于在GPU上进行通用计算,显著提高计算密集型任务的性能。通过将这三者结合起来,开发者可以实现从深度学习模型的优化编译到高效的GPU加速计算,充分利用各种硬件平台的计算能力。

2024-07-26 17:52:52 510

原创 利用CUDA优化Transformer在时间序列预测中的训练

使用PyTorch的CUDA接口,将模型和损失函数定义在GPU上,并在GPU上进行前向传播和反向传播计算。

2024-07-25 13:57:18 539

原创 Transformer在时间序列预测上的应用1

Transformer最初是为了处理自然语言处理(NLP)任务而设计的,但由于其独特的架构和能力,它也被用于时间序列分析。Transformer应用于时间序列分析中的基本思想在于其自注意力机制,这使其能够有效捕捉时间序列数据中的长期依赖关系。通过并行处理能力和位置编码,Transformer不仅提高了处理效率,而且确保了时间顺序的准确性。其灵活的模型结构允许调整以适应不同复杂度。本文将探讨Transformer在时间序列预测上的应用,并通过定制化训练个人数据集,利用Python和PyTorch进行实现。

2024-07-24 14:41:48 610

原创 GPU大模型算法杂谈

CUDA(Compute Unified Device Architecture)是NVIDIA推出的一种并行计算平台和编程模型,允许开发者使用C/C++语言在GPU上开发并行计算算法。CUDA的并行计算能力主要体现在其能够同时执行大量的线程,从而加速数据密集型计算任务。设备管理API内存管理APIcudaMalloccudaFreecudaMemcpycudaMemset流和事件管理API核函数管理APIcudaLaunch错误处理API纹理和表面API设备属性查询API其他辅助API。

2024-07-17 17:44:00 768

原创 优化akshare 调用,同时支持多个股票代码的查询,将symbol 支持[“002195“,“300124“...]数组

考虑到多个代码需要运行多条指令,因此,优化akshare 调用,同时支持多个股票代码的查询,将symbol 支持[“002195”,“300124”…循环处理每个股票代码:在 while True 循环内,添加一个 for symbol in symbols: 循环来处理每个股票代码。输入参数:if len(sys.argv) < 2: 修改为至少需要两个参数,一个是脚本名,剩下的是股票代码。我们可以将默认的股票代码列表放到一个独立的 Python 文件中,然后在主脚本中引用它。中定义的默认股票代码列表。

2024-05-22 17:18:54 375

原创 python获取:机构持股一览表+详情

【代码】python获取:机构持股一览表+详情。

2024-05-22 17:12:46 350

原创 日常更新:2024年5月21日 独角兽公司

【代码】日常更新:2024年5月21日 独角兽公司。

2024-05-21 17:21:03 234

原创 获取当前绩优stock--update--2024年5月21日

市盈率-动态 > 0。

2024-05-21 16:45:44 250

原创 用 Python 编写自动发送每日电子邮件报告的脚本,并指导你如何进行设置windows计划任务

你需要smtplib和email库来发送邮件,这些是 Python 标准库。还需要schedule库来安排每日任务。你可以用pip来安装schedule:以下是一个示例脚本,它将发送一封包含简单文本内容的电子邮件。:将脚本中的SMTP_PORT和替换为你的 SMTP 服务器信息和你的电子邮件账户信息。:脚本中使用schedule库安排任务。这一行设置每天早上 8 点发送邮件。你可以根据需要修改时间。:保存脚本为确保脚本运行在一个不会中断的环境中,比如服务器或者配置为开机自动运行。

2024-05-17 16:36:26 994

原创 使用python绘制曲线+在jupyterlib中读取本地记录

你可以使用 Python 中的 matplotlib 库来绘制曲线。以下是一个示例代码,它会从给定的数据文件中读取数据并绘制两条曲线:一条表示时间与成交价的关系,另一条表示时间与手数的关系。

2024-05-17 16:00:15 840

原创 用 Python 和 AkShare 进行个股数据清洗:源码剖析和建议优化

这是《个股数据清洗》一个获取股票买卖盘信息并将其打印到控制台并保存到文件的脚本。下面我们来对源码进行剖析。

2024-05-11 11:50:09 775 2

原创 用 Python 和 AkShare 进行个股数据清洗:简易多功能方法

标题:用 Python 和 AkShare 进行个股数据清洗:简易多功能方法简介:本文介绍了如何使用 Python 和 AkShare 库对个股数据进行清洗和处理。个股数据经常需要进行清洗以用于分析、建模或可视化。我们将介绍一些简单但功能强大的方法,包括数据加载、缺失值处理、重复值检测和处理、异常值处理等。

2024-05-11 11:14:06 684 1

原创 python获取涨跌幅+布尔索引说明

布尔索引是一种利用布尔值(True 或 False)来选择数据的技术。在 Pandas 中,你可以使用布尔索引来筛选 DataFrame 中符合特定条件的行。具体来说,布尔索引是一个布尔值的数组,数组的长度与要索引的数据的长度相同。布尔值数组中的每个元素表示对应位置的数据是否满足某个条件。当布尔值为 True 时,表示该位置的数据符合条件,当布尔值为 False 时,则表示不符合条件。

2024-05-10 14:08:18 348 1

原创 股票数据获取示例+获取所有股票盈利预测数据

【代码】股票数据获取示例+获取所有股票盈利预测数据。

2024-05-09 14:49:14 451 1

原创 使用Python和akshare完成个股信息统计和实时记录

本文介绍了如何使用 Python 和 akshare 完成个股信息的统计分析和实时记录。通过使用 akshare 库,我们可以方便地获取个股信息,并利用 Python 进行统计分析和实时记录,为金融投资提供了便利。希望本文能够帮助到对金融数据分析感兴趣的读者。

2024-05-09 13:10:24 1291 1

原创 pygame做一个星空穿越:提供一序列名称可以产生动态效果

【代码】pygame做一个星空穿越:提供一序列名称可以产生动态效果。

2024-04-16 16:03:48 166 2

原创 学习笔记:能用20-50个模型说明tensorflow?

TensorFlow 是一个广泛应用于机器学习和深度学习的开源框架,提供了丰富的功能和工具来构建和训练神经网络模型。先来 20 个 TensorFlow 相关的实现示例,每个示例都包含基本的调用范例:线性回归模型:卷积神经网络(CNN):循环神经网络(RNN):生成对抗网络(GAN):自编码器(Autoencoder):预训练模型迁移学习:K-Means 聚类:**Word2Vec**:序列到序列模型:多层感知机(MLP):自定义损失函数:

2024-04-12 12:34:01 1068

原创 学习笔记:讲一讲神经网络相关概念

将训练好的模型应用于实际场景中的过程,包括模型转换、优化和部署。:解释模型的预测结果、行为和决策过程,以增强模型的可信度和透明度。:一种用于加速神经网络训练过程的技术,通过标准化神经网络的输入。:学习如何学习的学习过程,通过从不同任务中学习通用的知识和策略。:通过利用一个任务的学习结果来改善另一个相关任务的学习的方法。:结合多个模型的预测结果来提高整体性能的技术,如投票、平均等。:通过利用一个任务的学习结果来改善另一个相关任务的学习的方法。:结合多个模型的预测结果来提高整体性能的技术,如投票、平均等。

2024-04-12 10:01:21 562

原创 AI agent 是什么?

AI(人工智能)代理(Agent)通常指的是一个程序或系统,能够在环境中感知并采取行动以达成特定目标的实体。它们是设计用来执行某些任务或解决问题的智能实体。AI代理可以是简单的,比如执行特定的规则或指令,也可以是复杂的,能够通过学习和适应来改进其行为。:AI代理能够感知其周围环境的状态,通常通过传感器或其他数据来源收集信息。:AI代理能够基于其感知到的环境信息采取行动,通常通过某种形式的决策制定机制来选择合适的行动。:某些AI代理能够通过与环境的交互或数据的分析来改进自己的性能,这种能力称为学习能力。

2024-04-08 17:39:41 1620

原创 举例说明:pytorch整体框架!!!

计算图是一种数据结构,用于表示数学表达式中各个变量之间的关系以及计算过程。在深度学习中,计算图是用来描述神经网络模型的计算过程的一种形式。计算图由节点和边组成,其中节点表示变量或者操作,边表示变量间的依赖关系。在前向传播过程中,计算图从输入开始,按照一定的顺序经过一系列的操作,最终得到输出。在反向传播过程中,计算图则从输出开始,沿着与前向传播相反的方向,计算各个变量的梯度。在 PyTorch 中,每次进行张量运算时都会构建一个计算图,用于记录操作的历史,以便在需要时进行梯度计算。

2024-04-08 17:22:30 1197

翻译 全网强烈推荐-详细的图解Transformer ((好多图))

解码器堆栈输出一个浮点数向量。我们如何将其转换为一个单词?这是最终的线性层和其后的Softmax层的工作。线性层是一个简单的全连接神经网络,它将解码器堆栈产生的向量投影到一个远远更大的向量中,称为对数向量。假设我们的模型知道10,000个独特的英文单词(我们模型的“输出词汇”),它从训练数据集中学到了这些单词。这将使得对数向量的宽度为10,000个单元 - 每个单元对应于一个独特单词的分数。这就是我们如何解释线性层后模型的输出的。

2024-04-08 14:18:23 70

原创 怎么就需要一组固定:查询(Query)、键(Key)、值(Value)+ 简简单单说明它们之间有什么差异和作用

在预训练模型 GPT(Generative Pre-trained Transformer)中,初始的 ( Q )、 ( K )、 ( V ) 值通常是通过输入序列中的词嵌入(Word Embeddings)以及位置编码(Positional Encoding)生成的。这些输入在模型训练之前是固定的,但它们是通过训练过程中学习到的。总之, ( Q )、 ( K )、 ( V ) 在模型训练之前是固定的,但它们的值是通过模型参数学习得到的,并且在训练过程中会根据训练数据进行调整,以适应任务的要求。

2024-04-02 15:08:34 878 1

原创 AI技术快速发展,作为个人,如何跨过焦虑难以跟上AI的发展?

最后,要明白在学习的过程中,不仅仅是获取知识,更重要的是培养自己的思维能力和解决问题的能力。总的来说,虽然跟上 AI 技术的发展可能会带来一定的压力和挑战,但通过积极的学习态度、善用资源、保持好奇心和培养解决问题的能力,我们可以更好地应对这些挑战,并不断提升自己的竞争力和适应能力。另外,要保持好奇心和求知欲。因此,要保持开放的心态,愿意接受新的知识和挑战,不断地探索和学习。以上是一些推荐的书籍、在线资源以及当前主流技术栈,每个技术栈都有相关的学习材料和实践资源,希望能够帮助你更好地学习和掌握相关技能。

2024-03-28 10:15:28 518 1

原创 举个例子:说明transformer的多头注意力思路

通过以上步骤,我们演示了Transformer模型中的自注意力机制和多头注意力机制的具体应用过程。通过自注意力机制,每个单词都能够关注到句子中的所有其他单词,通过多头注意力机制,我们能够学习到不同方面的语义信息,并将它们整合到最终的表示中。

2024-03-21 14:24:24 978 1

原创 如何理解这句话:Transformer是第一个完全依赖于自注意力来计算其输入和输出表示的转换模型,而不使用序列对齐的循环神经网络或卷积

RNN是一种递归神经网络结构,而Transformer是一种基于自注意力机制的前馈神经网络结构。RNN按顺序逐步处理序列数据,依赖于当前时间步的输入和前一个时间步的隐藏状态;而Transformer通过自注意力机制并行处理输入序列中的所有位置信息。Transformer具有更好的并行性和计算效率,能够处理任意长度的序列数据,而RNN的计算效率较低,无法进行并行计算。梯度消失和梯度爆炸是深度神经网络训练中常见的问题,它们会导致模型训练过程中的梯度不稳定,进而影响模型的收敛和训练效果。

2024-03-21 11:03:37 496 1

原创 <Attention Is All You Need>:全网首次提出Transformer模型论文中英文对照学习

循环神经网络,尤其是长短期记忆(LSTM)[13]和门控循环神经网络[7],已经被确定为序列建模和转换问题的最先进方法,如语言建模和机器翻译[35, 2, 5]。此后,已经进行了大量努力,以推动循环语言模型和编码器-解码器架构的边界[38, 24, 15]。循环模型通常沿着输入和输出序列的符号位置进行计算分解。将位置对齐到计算时间步长,它们生成一系列隐藏状态ht,作为前一个隐藏状态ht−1和位置t的输入的函数。

2024-03-20 13:53:30 1166

原创 TensorFlow与Transformer异同-追加阅读Pytorch实现chatGPT

TensorFlow是一个开源的机器学习框架,由Google开发并维护。它提供了一种灵活且高效的方式来构建和训练各种机器学习模型。TensorFlow以数据流图的形式表示计算任务,其中节点表示操作,边表示数据流。TensorFlow的基本概念包括以下几个要点:张量(Tensors):TensorFlow使用张量作为数据的基本单位。张量是一个多维数组,可以表示各种类型的数据,如标量、向量、矩阵等。

2024-03-20 10:16:05 926 2

原创 随笔006-GPT4-genz 4 meme

关于GPT4.0使用:genz 4 meme总体来说,就是对国际上,国内多国俚语进行分析和推荐。

2023-12-20 17:16:28 72

windows internals 7th-2; windows 内核数据结构;内核编程参考;英文PDF转word原版

第七版partII-英文PDF转word原版:部分英文板式偏移;本内容含windows内核数据结构,常用工具介绍900页,待后续转换中英双语版本; * 使用 Dependency Walker 工具查看从 Windows 子系统 DLL 导出的函数。从 http://www.dependencywalker.com 下载 Dependency Walker * 键入为 BSTR。这本质上是一个以 null 结尾的 Unicode 字符数组,字符串长度(以字节为单位)存储在内存中字符数组开始之前的 4 个字节处。 * 性能监视器:运行对话框中键入 perfmon * 调试内核配置:srv*c:\symbols*http://msdl.microsoft.com/download/symbols * 虚拟机管理程序仍然以与内核相同的 CPU 特权级别 (0) 运行,但由于它使用专门的 CPU 指令(Intel 上的 VT-x、AMD 上的 SVM)

2023-11-16

baksmali-2.2.0.jar

baksmali-2.2.0.jar

2017-04-11

Windows编程启示录(影印版).

windows ,编程,启示录,Windows编程启示录; 最近在看《wndows编程启示录》,这里面写到了很多windows用户界面设置时候的很多解决矛盾的艺术。其中看到几个比较好玩的东西给大家分享一下。 最小化所有窗口”的快捷键是”windows+d“, 显示桌面"的快捷键是“windows+ m” 取消所有最小化窗口的快捷键是”windows+shift+d“。

2014-09-22

VISUAL C++ 项目开发案例全程实录[II]

本部分由第七章开始,知道结束,与前期发布的[I]版本连为一体就是完整的一部书了。

2012-02-09

VISUAL C ++ 项目开发案例全程实录[I]

最新版项目扫描文档,难得一见! 赶紧来下载吧,让您的技术更上一层楼!

2012-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除