kingking44
码龄16年
关注
提问 私信
  • 博客:30,281
    社区:96
    30,377
    总访问量
  • 38
    原创
  • 34,838
    排名
  • 397
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2009-03-25
博客简介:

kingking44的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    336
    当月
    22
个人成就
  • 获得590次点赞
  • 内容获得14次评论
  • 获得368次收藏
创作历程
  • 38篇
    2024年
  • 1篇
    2023年
成就勋章
TA的专栏
  • windows 
    1篇
  • bat
    1篇
  • RDMA
    1篇
  • 智能设备
    1篇
  • SOC
    2篇
  • AI机器智能
    16篇
  • cuda
    3篇
  • GPU
    4篇
  • python实战经验
    14篇
  • stock
    9篇
兴趣领域 设置
  • Python
    pythonnumpy
  • 编程语言
    pythonjavac++javascripttypescript
  • 开发工具
    visual studiopycharmvscodepostmanjupytervisual studio code
  • 数据结构与算法
    算法数据结构链表动态规划leetcode
  • 大数据
    kafka
  • 前端
    jsontypescriptnode.jsvue.jspostmanelectronreact.jschrome devtoolswebpack前端
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

如果使用wmic 在bat脚本中获取当前系统时间?

如果必须使用wmic来实现计时功能,那么虽然无法直接通过获取滴答计数(因为在部分系统中不支持),可以通过wmic获取系统的当前时间,然后通过日期和时间的计算间接实现计时功能。以下是基于wmic。
原创
发布博客 2024.11.20 ·
288 阅读 ·
9 点赞 ·
0 评论 ·
4 收藏

安装fpm,解决*.deb=> *.rpm

thread_pthread.h:108:43: 错误:expected ‘=’, ‘,’, ‘;需要 Ruby 3.0 或更高版本的问题时,可以通过安装更新的 Ruby 版本来解决。vm_core.h:1880:34: 错误:‘ruby_current_ec’未声明(在此函数内第一次使用)CentOS 默认的软件库中可能没有最新的 Ruby 版本,所以我们可以通过。来安装较新版本的 Ruby。是一个强大的跨平台打包工具,可以将。构建完成后,生成的 RPM 文件会在。使用更新后的 Ruby 安装。
原创
发布博客 2024.11.01 ·
1179 阅读 ·
9 点赞 ·
0 评论 ·
13 收藏

剖析:基于 RDMA 的多机数据分发和接收场景

RDMA(远程直接内存访问)是一种技术,允许一台计算机直接访问另一台计算机的内存,而无需通过操作系统内核的干预。低延迟:绕过内核和网络栈,减少了数据传输的延迟。高吞吐量:因为数据传输无需 CPU 参与,所以 CPU 可以处理其他任务,提供了更高的吞吐量。低 CPU 占用率:CPU 不需要参与数据传输的管理,大大减少了系统开销。高性能计算(HPC)分布式数据库存储系统(如 NVMe over Fabrics)大规模数据中心网络(如 RoCE, iWARP)内存注册
原创
发布博客 2024.09.25 ·
1138 阅读 ·
12 点赞 ·
0 评论 ·
16 收藏

Windows上电到登录:生物识别

这只是一个框架性的示例,实际的实现会复杂得多,尤其是在处理具体硬件设备、同步数据流、错误处理和安全性等方面。开发实际的 Windows Hello 兼容驱动程序需要深入的 Windows 内核开发经验,并与硬件制造商提供的 SDK 和文档配合使用。
原创
发布博客 2024.08.29 ·
1118 阅读 ·
25 点赞 ·
0 评论 ·
10 收藏

谈一谈TVM编译工程师的修炼手册

TVM 之所以被称为编译器,是因为它提供了从模型表示到硬件特定代码生成的完整编译链。在这个过程中,TVM 执行了诸如优化、调度、代码生成等传统编译器的任务,并最终生成了可以在目标硬件上高效运行的代码。每次加载和运行 ONNX 模型时,如果有变化或需要优化,可能会重新编译代码以适应新的硬件配置或运行时环境。编译工程师的工作涉及编译器的开发、硬件适配、代码优化以及性能调优等多个方面。特别是在 NPU 这样的硬件平台上,编译工程师的工作对充分利用硬件资源、提升深度学习模型的执行效率至关重要。
原创
发布博客 2024.08.15 ·
1115 阅读 ·
30 点赞 ·
0 评论 ·
10 收藏

windows 安装TVM

TVM支持在Windows环境下使用,但需要一些额外的配置。以下是如何在Windows Python环境中安装TVM的详细步骤。
原创
发布博客 2024.08.14 ·
799 阅读 ·
10 点赞 ·
0 评论 ·
3 收藏

计算图优化有哪些=>举例说明

计算图优化在提升深度学习模型执行效率上发挥着至关重要的作用。TVM通过多种优化策略,如常量折叠、算子融合、子图分割和内存优化,实现了高效的模型推理能力。相比于框架级和手写代码优化,TVM提供了更高的灵活性和自动化能力,特别适合异构计算环境和不同硬件后端的需求。
原创
发布博客 2024.08.14 ·
576 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

FasterTransformer 与 GPT 异同

该代码通过使用FasterTransformer库,实现了BERT模型在Triton推理服务中的高效推理。代码主要展示了如何使用MPI和NCCL进行多GPU设备之间的通信和同步,以实现模型的并行化。整个推理过程包括模型的初始化、数据的准备、前向传播以及性能测试。这段代码展示了如何将BERT模型部署在高性能计算环境中,并结合Triton服务进行推理加速,是大规模深度学习模型部署的一个优秀示例。
原创
发布博客 2024.08.13 ·
1093 阅读 ·
14 点赞 ·
0 评论 ·
17 收藏

`ncclComm` 结构体说明:是 NCCL(NVIDIA Collective Communications Library)中的一个核心数据结构

结构体是 NCCL(NVIDIA Collective Communications Library)中的一个核心数据结构,用于表示一个通信器(communicator)。通信器是 NCCL 中进行多 GPU 通信的基本单位。这个结构体包含了用于管理通信、设备信息、内存分配、算法选择等的各种字段。结构体涵盖了与 NCCL 通信器相关的各个方面,从内存管理、设备信息、通信通道、算法选择、错误处理到资源管理等各个模块。每个字段在不同的模块和流程中起到了至关重要的作用,确保了 NCCL 的高效和可靠运行。
原创
发布博客 2024.08.13 ·
854 阅读 ·
21 点赞 ·
0 评论 ·
5 收藏

随笔008-端侧部署LLM

不同模型的架构适合于不同类型的任务,从文本处理到图像分类,从单语言到多语言,从单模态到多模态,都有对应的著名模型支持。如果模型大小和内存占用超过了系统的承受能力,你可能需要考虑在云端或高性能计算集群上运行模型,或者使用更小的模型来进行实验。:Llama 8B 模型在 CPU 上运行时,可能会消耗几十 GB 的内存,具体取决于模型的大小及其生成任务的复杂性。: 如果加载完整的 Llama 8B 模型在你的系统上不可行,考虑使用更小的模型(例如 7B 或 2.7B),这样可以减轻内存和计算的压力。
原创
发布博客 2024.08.09 ·
920 阅读 ·
25 点赞 ·
0 评论 ·
8 收藏

简述cuBLAS相关函数原型(附属工具): 矩阵乘法函数 `cublasSgemm` 和 `cublasDgemm` + 复数矩阵乘法函数 `cublasCgemm` 和 `cublasZgemm`

这两行代码将和重定向到它们的 v2 版本和。这样,当程序中调用或时,实际上调用的是 v2 版本。这两行代码将和重定向到它们的 v2 版本和。这样,当程序中调用或时,实际上调用的是 v2 版本。
原创
发布博客 2024.07.29 ·
862 阅读 ·
26 点赞 ·
0 评论 ·
20 收藏

TVM、LLVM、CUDA 是三个不同的项目或技术

TVM:主要用于优化和部署深度学习模型,支持多种硬件后端,包括CPU和GPU。LLVM:一个通用的编译器框架,用于开发编译器和相关工具,支持多种编程语言和硬件架构。CUDA:NVIDIA的并行计算平台和编程模型,用于在GPU上进行通用计算,显著提高计算密集型任务的性能。通过将这三者结合起来,开发者可以实现从深度学习模型的优化编译到高效的GPU加速计算,充分利用各种硬件平台的计算能力。
原创
发布博客 2024.07.26 ·
604 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

利用CUDA优化Transformer在时间序列预测中的训练

使用PyTorch的CUDA接口,将模型和损失函数定义在GPU上,并在GPU上进行前向传播和反向传播计算。
原创
发布博客 2024.07.25 ·
578 阅读 ·
23 点赞 ·
0 评论 ·
17 收藏

Transformer在时间序列预测上的应用1

Transformer最初是为了处理自然语言处理(NLP)任务而设计的,但由于其独特的架构和能力,它也被用于时间序列分析。Transformer应用于时间序列分析中的基本思想在于其自注意力机制,这使其能够有效捕捉时间序列数据中的长期依赖关系。通过并行处理能力和位置编码,Transformer不仅提高了处理效率,而且确保了时间顺序的准确性。其灵活的模型结构允许调整以适应不同复杂度。本文将探讨Transformer在时间序列预测上的应用,并通过定制化训练个人数据集,利用Python和PyTorch进行实现。
原创
发布博客 2024.07.24 ·
648 阅读 ·
21 点赞 ·
0 评论 ·
10 收藏

GPU大模型算法杂谈

CUDA(Compute Unified Device Architecture)是NVIDIA推出的一种并行计算平台和编程模型,允许开发者使用C/C++语言在GPU上开发并行计算算法。CUDA的并行计算能力主要体现在其能够同时执行大量的线程,从而加速数据密集型计算任务。设备管理API内存管理APIcudaMalloccudaFreecudaMemcpycudaMemset流和事件管理API核函数管理APIcudaLaunch错误处理API纹理和表面API设备属性查询API其他辅助API。
原创
发布博客 2024.07.17 ·
873 阅读 ·
12 点赞 ·
0 评论 ·
10 收藏

优化akshare 调用,同时支持多个股票代码的查询,将symbol 支持[“002195“,“300124“...]数组

考虑到多个代码需要运行多条指令,因此,优化akshare 调用,同时支持多个股票代码的查询,将symbol 支持[“002195”,“300124”…循环处理每个股票代码:在 while True 循环内,添加一个 for symbol in symbols: 循环来处理每个股票代码。输入参数:if len(sys.argv) < 2: 修改为至少需要两个参数,一个是脚本名,剩下的是股票代码。我们可以将默认的股票代码列表放到一个独立的 Python 文件中,然后在主脚本中引用它。中定义的默认股票代码列表。
原创
发布博客 2024.05.22 ·
409 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

python获取:机构持股一览表+详情

【代码】python获取:机构持股一览表+详情。
原创
发布博客 2024.05.22 ·
396 阅读 ·
7 点赞 ·
0 评论 ·
0 收藏

日常更新:2024年5月21日 独角兽公司

【代码】日常更新:2024年5月21日 独角兽公司。
原创
发布博客 2024.05.21 ·
246 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

获取当前绩优stock--update--2024年5月21日

市盈率-动态 > 0。
原创
发布博客 2024.05.21 ·
258 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

用 Python 编写自动发送每日电子邮件报告的脚本,并指导你如何进行设置windows计划任务

你需要smtplib和email库来发送邮件,这些是 Python 标准库。还需要schedule库来安排每日任务。你可以用pip来安装schedule:以下是一个示例脚本,它将发送一封包含简单文本内容的电子邮件。:将脚本中的SMTP_PORT和替换为你的 SMTP 服务器信息和你的电子邮件账户信息。:脚本中使用schedule库安排任务。这一行设置每天早上 8 点发送邮件。你可以根据需要修改时间。:保存脚本为确保脚本运行在一个不会中断的环境中,比如服务器或者配置为开机自动运行。
原创
发布博客 2024.05.17 ·
1011 阅读 ·
13 点赞 ·
0 评论 ·
15 收藏
加载更多