kingking44-CSDN博客

原创如果使用wmic 在bat脚本中获取当前系统时间？

如果必须使用wmic来实现计时功能，那么虽然无法直接通过获取滴答计数（因为在部分系统中不支持），可以通过wmic获取系统的当前时间，然后通过日期和时间的计算间接实现计时功能。以下是基于wmic。

2024-11-20 11:13:23 685

thread_pthread.h:108:43: 错误：expected ‘=’, ‘,’, ‘;需要 Ruby 3.0 或更高版本的问题时，可以通过安装更新的 Ruby 版本来解决。vm_core.h:1880:34: 错误：‘ruby_current_ec’未声明(在此函数内第一次使用)CentOS 默认的软件库中可能没有最新的 Ruby 版本，所以我们可以通过。来安装较新版本的 Ruby。是一个强大的跨平台打包工具，可以将。构建完成后，生成的 RPM 文件会在。使用更新后的 Ruby 安装。

2024-11-01 16:44:09 1571 1

原创剖析：基于 RDMA 的多机数据分发和接收场景

RDMA（远程直接内存访问）是一种技术，允许一台计算机直接访问另一台计算机的内存，而无需通过操作系统内核的干预。低延迟：绕过内核和网络栈，减少了数据传输的延迟。高吞吐量：因为数据传输无需 CPU 参与，所以 CPU 可以处理其他任务，提供了更高的吞吐量。低 CPU 占用率：CPU 不需要参与数据传输的管理，大大减少了系统开销。高性能计算（HPC）分布式数据库存储系统（如 NVMe over Fabrics）大规模数据中心网络（如 RoCE, iWARP）内存注册

2024-09-25 10:01:24 1408

原创 Windows上电到登录：生物识别

这只是一个框架性的示例，实际的实现会复杂得多，尤其是在处理具体硬件设备、同步数据流、错误处理和安全性等方面。开发实际的 Windows Hello 兼容驱动程序需要深入的 Windows 内核开发经验，并与硬件制造商提供的 SDK 和文档配合使用。

2024-08-29 18:01:36 1380

原创谈一谈TVM编译工程师的修炼手册

TVM 之所以被称为编译器，是因为它提供了从模型表示到硬件特定代码生成的完整编译链。在这个过程中，TVM 执行了诸如优化、调度、代码生成等传统编译器的任务，并最终生成了可以在目标硬件上高效运行的代码。每次加载和运行 ONNX 模型时，如果有变化或需要优化，可能会重新编译代码以适应新的硬件配置或运行时环境。编译工程师的工作涉及编译器的开发、硬件适配、代码优化以及性能调优等多个方面。特别是在 NPU 这样的硬件平台上，编译工程师的工作对充分利用硬件资源、提升深度学习模型的执行效率至关重要。

2024-08-15 09:50:53 1286

原创 windows 安装TVM

TVM支持在Windows环境下使用，但需要一些额外的配置。以下是如何在Windows Python环境中安装TVM的详细步骤。

2024-08-14 17:01:23 1038

原创计算图优化有哪些=＞举例说明

计算图优化在提升深度学习模型执行效率上发挥着至关重要的作用。TVM通过多种优化策略，如常量折叠、算子融合、子图分割和内存优化，实现了高效的模型推理能力。相比于框架级和手写代码优化，TVM提供了更高的灵活性和自动化能力，特别适合异构计算环境和不同硬件后端的需求。

2024-08-14 15:14:01 758

原创 FasterTransformer 与 GPT 异同

该代码通过使用FasterTransformer库，实现了BERT模型在Triton推理服务中的高效推理。代码主要展示了如何使用MPI和NCCL进行多GPU设备之间的通信和同步，以实现模型的并行化。整个推理过程包括模型的初始化、数据的准备、前向传播以及性能测试。这段代码展示了如何将BERT模型部署在高性能计算环境中，并结合Triton服务进行推理加速，是大规模深度学习模型部署的一个优秀示例。

2024-08-13 15:19:25 1187

原创 `ncclComm` 结构体说明：是 NCCL（NVIDIA Collective Communications Library）中的一个核心数据结构

结构体是 NCCL（NVIDIA Collective Communications Library）中的一个核心数据结构，用于表示一个通信器（communicator）。通信器是 NCCL 中进行多 GPU 通信的基本单位。这个结构体包含了用于管理通信、设备信息、内存分配、算法选择等的各种字段。结构体涵盖了与 NCCL 通信器相关的各个方面，从内存管理、设备信息、通信通道、算法选择、错误处理到资源管理等各个模块。每个字段在不同的模块和流程中起到了至关重要的作用，确保了 NCCL 的高效和可靠运行。

2024-08-13 13:05:04 1173

原创随笔008-端侧部署LLM

不同模型的架构适合于不同类型的任务，从文本处理到图像分类，从单语言到多语言，从单模态到多模态，都有对应的著名模型支持。如果模型大小和内存占用超过了系统的承受能力，你可能需要考虑在云端或高性能计算集群上运行模型，或者使用更小的模型来进行实验。：Llama 8B 模型在 CPU 上运行时，可能会消耗几十 GB 的内存，具体取决于模型的大小及其生成任务的复杂性。: 如果加载完整的 Llama 8B 模型在你的系统上不可行，考虑使用更小的模型（例如 7B 或 2.7B），这样可以减轻内存和计算的压力。

2024-08-09 15:06:18 1076

原创简述cuBLAS相关函数原型(附属工具): 矩阵乘法函数 `cublasSgemm` 和 `cublasDgemm` + 复数矩阵乘法函数 `cublasCgemm` 和 `cublasZgemm`

这两行代码将和重定向到它们的 v2 版本和。这样，当程序中调用或时，实际上调用的是 v2 版本。这两行代码将和重定向到它们的 v2 版本和。这样，当程序中调用或时，实际上调用的是 v2 版本。

2024-07-29 10:38:54 1078

原创 TVM、LLVM、CUDA 是三个不同的项目或技术

TVM：主要用于优化和部署深度学习模型，支持多种硬件后端，包括CPU和GPU。LLVM：一个通用的编译器框架，用于开发编译器和相关工具，支持多种编程语言和硬件架构。CUDA：NVIDIA的并行计算平台和编程模型，用于在GPU上进行通用计算，显著提高计算密集型任务的性能。通过将这三者结合起来，开发者可以实现从深度学习模型的优化编译到高效的GPU加速计算，充分利用各种硬件平台的计算能力。

2024-07-26 17:52:52 946

原创利用CUDA优化Transformer在时间序列预测中的训练

使用PyTorch的CUDA接口，将模型和损失函数定义在GPU上，并在GPU上进行前向传播和反向传播计算。

2024-07-25 13:57:18 694

原创 Transformer在时间序列预测上的应用1

Transformer最初是为了处理自然语言处理（NLP）任务而设计的，但由于其独特的架构和能力，它也被用于时间序列分析。Transformer应用于时间序列分析中的基本思想在于其自注意力机制，这使其能够有效捕捉时间序列数据中的长期依赖关系。通过并行处理能力和位置编码，Transformer不仅提高了处理效率，而且确保了时间顺序的准确性。其灵活的模型结构允许调整以适应不同复杂度。本文将探讨Transformer在时间序列预测上的应用，并通过定制化训练个人数据集，利用Python和PyTorch进行实现。

2024-07-24 14:41:48 921

原创 GPU大模型算法杂谈

CUDA（Compute Unified Device Architecture）是NVIDIA推出的一种并行计算平台和编程模型，允许开发者使用C/C++语言在GPU上开发并行计算算法。CUDA的并行计算能力主要体现在其能够同时执行大量的线程，从而加速数据密集型计算任务。设备管理API内存管理APIcudaMalloccudaFreecudaMemcpycudaMemset流和事件管理API核函数管理APIcudaLaunch错误处理API纹理和表面API设备属性查询API其他辅助API。

2024-07-17 17:44:00 1078

原创优化akshare 调用，同时支持多个股票代码的查询，将symbol 支持[“002195“,“300124“...]数组

考虑到多个代码需要运行多条指令，因此，优化akshare 调用，同时支持多个股票代码的查询，将symbol 支持[“002195”,“300124”…循环处理每个股票代码：在 while True 循环内，添加一个 for symbol in symbols: 循环来处理每个股票代码。输入参数：if len(sys.argv) < 2: 修改为至少需要两个参数，一个是脚本名，剩下的是股票代码。我们可以将默认的股票代码列表放到一个独立的 Python 文件中，然后在主脚本中引用它。中定义的默认股票代码列表。

2024-05-22 17:18:54 617

原创 python获取：机构持股一览表+详情

【代码】python获取：机构持股一览表+详情。

2024-05-22 17:12:46 534

原创日常更新：2024年5月21日独角兽公司

【代码】日常更新：2024年5月21日独角兽公司。

2024-05-21 17:21:03 286

原创获取当前绩优stock--update--2024年5月21日

市盈率-动态 > 0。

2024-05-21 16:45:44 291

原创用 Python 编写自动发送每日电子邮件报告的脚本，并指导你如何进行设置windows计划任务

你需要smtplib和email库来发送邮件，这些是 Python 标准库。还需要schedule库来安排每日任务。你可以用pip来安装schedule：以下是一个示例脚本，它将发送一封包含简单文本内容的电子邮件。：将脚本中的SMTP_PORT和替换为你的 SMTP 服务器信息和你的电子邮件账户信息。：脚本中使用schedule库安排任务。这一行设置每天早上 8 点发送邮件。你可以根据需要修改时间。：保存脚本为确保脚本运行在一个不会中断的环境中，比如服务器或者配置为开机自动运行。

2024-05-17 16:36:26 1177

原创使用python绘制曲线+在jupyterlib中读取本地记录

你可以使用 Python 中的 matplotlib 库来绘制曲线。以下是一个示例代码，它会从给定的数据文件中读取数据并绘制两条曲线：一条表示时间与成交价的关系，另一条表示时间与手数的关系。

2024-05-17 16:00:15 934

原创用 Python 和 AkShare 进行个股数据清洗：源码剖析和建议优化

这是《个股数据清洗》一个获取股票买卖盘信息并将其打印到控制台并保存到文件的脚本。下面我们来对源码进行剖析。

2024-05-11 11:50:09 1010 2

原创用 Python 和 AkShare 进行个股数据清洗：简易多功能方法

标题：用 Python 和 AkShare 进行个股数据清洗：简易多功能方法简介：本文介绍了如何使用 Python 和 AkShare 库对个股数据进行清洗和处理。个股数据经常需要进行清洗以用于分析、建模或可视化。我们将介绍一些简单但功能强大的方法，包括数据加载、缺失值处理、重复值检测和处理、异常值处理等。

2024-05-11 11:14:06 1093 1

原创 python获取涨跌幅+布尔索引说明

布尔索引是一种利用布尔值（True 或 False）来选择数据的技术。在 Pandas 中，你可以使用布尔索引来筛选 DataFrame 中符合特定条件的行。具体来说，布尔索引是一个布尔值的数组，数组的长度与要索引的数据的长度相同。布尔值数组中的每个元素表示对应位置的数据是否满足某个条件。当布尔值为 True 时，表示该位置的数据符合条件，当布尔值为 False 时，则表示不符合条件。

2024-05-10 14:08:18 498 1

原创股票数据获取示例+获取所有股票盈利预测数据

【代码】股票数据获取示例+获取所有股票盈利预测数据。

2024-05-09 14:49:14 841 1

原创使用Python和akshare完成个股信息统计和实时记录

本文介绍了如何使用 Python 和 akshare 完成个股信息的统计分析和实时记录。通过使用 akshare 库，我们可以方便地获取个股信息，并利用 Python 进行统计分析和实时记录，为金融投资提供了便利。希望本文能够帮助到对金融数据分析感兴趣的读者。

2024-05-09 13:10:24 2535 1

原创 pygame做一个星空穿越：提供一序列名称可以产生动态效果

【代码】pygame做一个星空穿越：提供一序列名称可以产生动态效果。

2024-04-16 16:03:48 231 2

原创学习笔记：能用20-50个模型说明tensorflow？

TensorFlow 是一个广泛应用于机器学习和深度学习的开源框架，提供了丰富的功能和工具来构建和训练神经网络模型。先来 20 个 TensorFlow 相关的实现示例，每个示例都包含基本的调用范例：线性回归模型：卷积神经网络（CNN）：循环神经网络（RNN）：生成对抗网络（GAN）：自编码器（Autoencoder）：预训练模型迁移学习：K-Means 聚类：**Word2Vec**：序列到序列模型：多层感知机（MLP）：自定义损失函数：

2024-04-12 12:34:01 1241

原创学习笔记：讲一讲神经网络相关概念

将训练好的模型应用于实际场景中的过程，包括模型转换、优化和部署。：解释模型的预测结果、行为和决策过程，以增强模型的可信度和透明度。：一种用于加速神经网络训练过程的技术，通过标准化神经网络的输入。：学习如何学习的学习过程，通过从不同任务中学习通用的知识和策略。：通过利用一个任务的学习结果来改善另一个相关任务的学习的方法。：结合多个模型的预测结果来提高整体性能的技术，如投票、平均等。：通过利用一个任务的学习结果来改善另一个相关任务的学习的方法。：结合多个模型的预测结果来提高整体性能的技术，如投票、平均等。

2024-04-12 10:01:21 630

原创 AI agent 是什么？

AI（人工智能）代理（Agent）通常指的是一个程序或系统，能够在环境中感知并采取行动以达成特定目标的实体。它们是设计用来执行某些任务或解决问题的智能实体。AI代理可以是简单的，比如执行特定的规则或指令，也可以是复杂的，能够通过学习和适应来改进其行为。：AI代理能够感知其周围环境的状态，通常通过传感器或其他数据来源收集信息。：AI代理能够基于其感知到的环境信息采取行动，通常通过某种形式的决策制定机制来选择合适的行动。：某些AI代理能够通过与环境的交互或数据的分析来改进自己的性能，这种能力称为学习能力。

2024-04-08 17:39:41 2081

原创举例说明：pytorch整体框架！！！

计算图是一种数据结构，用于表示数学表达式中各个变量之间的关系以及计算过程。在深度学习中，计算图是用来描述神经网络模型的计算过程的一种形式。计算图由节点和边组成，其中节点表示变量或者操作，边表示变量间的依赖关系。在前向传播过程中，计算图从输入开始，按照一定的顺序经过一系列的操作，最终得到输出。在反向传播过程中，计算图则从输出开始，沿着与前向传播相反的方向，计算各个变量的梯度。在 PyTorch 中，每次进行张量运算时都会构建一个计算图，用于记录操作的历史，以便在需要时进行梯度计算。

2024-04-08 17:22:30 1965

翻译全网强烈推荐-详细的图解Transformer ((好多图))

解码器堆栈输出一个浮点数向量。我们如何将其转换为一个单词？这是最终的线性层和其后的Softmax层的工作。线性层是一个简单的全连接神经网络，它将解码器堆栈产生的向量投影到一个远远更大的向量中，称为对数向量。假设我们的模型知道10,000个独特的英文单词（我们模型的“输出词汇”），它从训练数据集中学到了这些单词。这将使得对数向量的宽度为10,000个单元 - 每个单元对应于一个独特单词的分数。这就是我们如何解释线性层后模型的输出的。

2024-04-08 14:18:23 185

原创怎么就需要一组固定：查询（Query）、键（Key）、值（Value）+ 简简单单说明它们之间有什么差异和作用

在预训练模型 GPT（Generative Pre-trained Transformer）中，初始的 ( Q )、 ( K )、 ( V ) 值通常是通过输入序列中的词嵌入（Word Embeddings）以及位置编码（Positional Encoding）生成的。这些输入在模型训练之前是固定的，但它们是通过训练过程中学习到的。总之， ( Q )、 ( K )、 ( V ) 在模型训练之前是固定的，但它们的值是通过模型参数学习得到的，并且在训练过程中会根据训练数据进行调整，以适应任务的要求。

2024-04-02 15:08:34 1129 1

原创 AI技术快速发展，作为个人，如何跨过焦虑难以跟上AI的发展？

最后，要明白在学习的过程中，不仅仅是获取知识，更重要的是培养自己的思维能力和解决问题的能力。总的来说，虽然跟上 AI 技术的发展可能会带来一定的压力和挑战，但通过积极的学习态度、善用资源、保持好奇心和培养解决问题的能力，我们可以更好地应对这些挑战，并不断提升自己的竞争力和适应能力。另外，要保持好奇心和求知欲。因此，要保持开放的心态，愿意接受新的知识和挑战，不断地探索和学习。以上是一些推荐的书籍、在线资源以及当前主流技术栈，每个技术栈都有相关的学习材料和实践资源，希望能够帮助你更好地学习和掌握相关技能。

2024-03-28 10:15:28 646 1

原创举个例子：说明transformer的多头注意力思路

通过以上步骤，我们演示了Transformer模型中的自注意力机制和多头注意力机制的具体应用过程。通过自注意力机制，每个单词都能够关注到句子中的所有其他单词，通过多头注意力机制，我们能够学习到不同方面的语义信息，并将它们整合到最终的表示中。

2024-03-21 14:24:24 1118 1

原创如何理解这句话：Transformer是第一个完全依赖于自注意力来计算其输入和输出表示的转换模型，而不使用序列对齐的循环神经网络或卷积

RNN是一种递归神经网络结构，而Transformer是一种基于自注意力机制的前馈神经网络结构。RNN按顺序逐步处理序列数据，依赖于当前时间步的输入和前一个时间步的隐藏状态；而Transformer通过自注意力机制并行处理输入序列中的所有位置信息。Transformer具有更好的并行性和计算效率，能够处理任意长度的序列数据，而RNN的计算效率较低，无法进行并行计算。梯度消失和梯度爆炸是深度神经网络训练中常见的问题，它们会导致模型训练过程中的梯度不稳定，进而影响模型的收敛和训练效果。

2024-03-21 11:03:37 565 1

原创＜Attention Is All You Need＞：全网首次提出Transformer模型论文中英文对照学习

循环神经网络，尤其是长短期记忆（LSTM）[13]和门控循环神经网络[7]，已经被确定为序列建模和转换问题的最先进方法，如语言建模和机器翻译[35, 2, 5]。此后，已经进行了大量努力，以推动循环语言模型和编码器-解码器架构的边界[38, 24, 15]。循环模型通常沿着输入和输出序列的符号位置进行计算分解。将位置对齐到计算时间步长，它们生成一系列隐藏状态ht，作为前一个隐藏状态ht−1和位置t的输入的函数。

2024-03-20 13:53:30 1388 1

原创 TensorFlow与Transformer异同-追加阅读Pytorch实现chatGPT

TensorFlow是一个开源的机器学习框架，由Google开发并维护。它提供了一种灵活且高效的方式来构建和训练各种机器学习模型。TensorFlow以数据流图的形式表示计算任务，其中节点表示操作，边表示数据流。TensorFlow的基本概念包括以下几个要点：张量（Tensors）：TensorFlow使用张量作为数据的基本单位。张量是一个多维数组，可以表示各种类型的数据，如标量、向量、矩阵等。

2024-03-20 10:16:05 1263 2

原创随笔006-GPT4-genz 4 meme

关于GPT4.0使用：genz 4 meme总体来说，就是对国际上，国内多国俚语进行分析和推荐。

2023-12-20 17:16:28 118

windows internals 7th-2; windows 内核数据结构；内核编程参考；英文PDF转word原版

第七版partII-英文PDF转word原版：部分英文板式偏移；本内容含windows内核数据结构，常用工具介绍900页，待后续转换中英双语版本； * 使用 Dependency Walker 工具查看从 Windows 子系统 DLL 导出的函数。从 http://www.dependencywalker.com 下载 Dependency Walker * 键入为 BSTR。这本质上是一个以 null 结尾的 Unicode 字符数组，字符串长度（以字节为单位）存储在内存中字符数组开始之前的 4 个字节处。 * 性能监视器：运行对话框中键入 perfmon * 调试内核配置：srv*c:\symbols*http://msdl.microsoft.com/download/symbols * 虚拟机管理程序仍然以与内核相同的 CPU 特权级别 (0) 运行，但由于它使用专门的 CPU 指令（Intel 上的 VT-x、AMD 上的 SVM）

2023-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

windows internals 7th-2; windows 内核数据结构；内核编程参考；英文PDF转word原版

Windows编程启示录(影印版).

VISUAL C++ 项目开发案例全程实录[II]

VISUAL C ++ 项目开发案例全程实录[I]

baksmali-2.2.0.jar

空空如也