MachineCYL-CSDN博客

原创梳理cuda算子编译与python调用的流程_以vllm为例

在这个例子中，编译后的输出文件是/data/caiyueliang/vllm/build/temp.linux-x86_64-cpython-310/csrc/cuda_utils_kernels.o。-DTORCH_API_INCLUDE_EXTENSION_H、-DTORCH_EXTENSION_NAME=_ext、-D_GLIBCXX_USE_CXX11_ABI=0: 这些是针对PyTorch扩展的特定宏定义。在上述代码中我们终于看到了vllm._C，该名字正是新定义的扩展的名字。

2024-02-02 18:54:39 1103

原创【Tensorflow|Keras】获取模型指定层的输出

【Keras】获取模型指定层的输出。主要介绍2中方式：通过指定网络层的 index 来获取特定层的输出；通过指定网络层的 name 来获取特定层的输出。

2022-08-09 14:56:15 4782 1

原创【推荐算法】双塔模型代码（tensorflow）

【推荐算法】双塔模型代码（tensorflow）

2022-07-26 18:20:48 2890 1

原创【推荐算法】双塔模型介绍

【推荐算法】双塔模型介绍

2022-07-25 15:56:15 12047 2

原创【pyspark】DataFrame基础操作（二）

介绍一下 pyspark 的 DataFrame 基础操作。

2022-07-18 10:49:13 1264

原创【pyspark】DataFrame基础操作（一）

介绍一下 pyspark 的 DataFrame 基础操作。

2022-07-14 15:33:11 3128

原创【推荐算法】协同过滤算法代码（pyspark | ALS）

【推荐算法】协同过滤算法代码。基于pyspark ALS 的代码实现

2022-07-12 17:17:05 7343 1

原创【推荐算法】协同过滤算法介绍

协同过滤算法（Collaborative Filtering）是比较经典常用的推荐算法，它是一种完全依赖用户和物品之间行为关系的推荐算法。我们从它的名字“协同过滤”中，也可以窥探到它背后的原理，就是 “协同大家的反馈、评价和意见，一起对海量的信息进行过滤，从中筛选出用户可能感兴趣的信息”。...............................................................

2022-07-07 14:41:14 54918 1

原创【plotly】用绘图函数，定位坐标相关的问题

公司的业务场景有涉及到快递配送的场景。某次有运营同学反馈某个订单划分异常，没有划分给距离最近的快递员，让调查这个问题。因为存在数据库中的数据不直观，就想到用绘图工具，把订单的配送位置和快递员当时的定位位置绘制出来，方便调查问题。...

2022-07-06 17:19:33 479

原创【xgboost】贝叶斯自动调参代码

工作中，在用xgboost或者lightgbm模型进行模型训练的时候，经常用贝叶斯自动调参来搜索最优的参数。现在把相关的代码贴出来，供大家参考。

2022-07-06 16:07:00 2227

原创【Sanic】Prometheus监控接入（QPS、P99等）

【Prometheus】常见监控指标代码

2022-07-05 18:25:02 3580

原创【Hive】计算相邻两行时间戳的间隔（lag、lead）

业务需要，需要计算同一个用户，通过同一个访问渠道，每次访问的时间间隔。主要要用到的lag和lead分析函数。这边借这个例子，详细展开来讲一下。

2022-07-05 10:29:09 2268

转载【Spark】Task、Partition、RDD等概念的理解

有部分图和语句摘抄别的博客，有些理解是自己的补充的。梳理一下Spark中Task，Partition，RDD、Node数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

2022-07-04 16:05:39 799

原创【大数据】分布式机器学习平台

【大数据】分布式机器学习平台

2022-07-04 15:10:24 476

原创【大数据】常用大数据工具介绍

【大数据】常用大数据工具介绍

2022-07-01 16:51:35 1806

原创文本意图识别方案整理

意图识别本质上是文本分类问题，从目前的对话数据来看，用户说的话一般是短文本，长度大多在几十个字内，其中关键词和短语对分类显著的作用。目前主流的本文分类模型可以分为CNN、RNN和Bert（self-attention）三类，三者可以结合起来，同时由于短本文中关键词对分类结果作用明显，添加attention机制也是常用的trick。...

2022-06-29 14:28:55 3427

原创【RASA】KafkaEventBroker性能优化

【RASA】KafkaEventBroker性能优化

2022-06-29 11:32:27 461

原创【AnyQ】遇到的问题整理（二）

【AnyQ】遇到的问题整理（二）

2022-06-29 11:03:05 422

转载【AnyQ】如何添加插件

【AnyQ】如何添加插件

2022-06-29 10:45:09 114

原创【AnyQ】遇到的问题整理（一）

【AnyQ】遇到的问题整理（一）

2022-06-29 10:41:04 358

原创【AnyQ】百度开源 FAQ 问答系统—AnyQ介绍

近年来，随着人工智能技术的发展，人机对话技术得到越来越多的关注，人机对话产品也不断涌现。其中，智能客服作为人机对话的一个典型场景表现出极大的商业潜力和很强的研究价值，各企业也争先恐后的推出自己的智能客服产品。FAQ 问答技术作为智能客服系统最核心技术之一，在智能客服系统中发挥重要作用。通过该技术，可实现在知识库中快速找到与用户问题相匹配的问答，为用户提供满意的答案，从而极大提升客服人员效率，改善客服人员服务化水平，降低企业客服成本。百度在今年 7 月的 AI 开发者大会上开源了首个工业级基于语义计算的 FA

2022-06-29 10:39:38 2881 1

原创【AnyQ】run_server.cpp和http_server.cpp源码阅读

【AnyQ】run_server.cpp和http_server.cpp源码阅读

2022-06-29 10:21:43 194

原创【RASA】自定义组件

rasa框架支持自定义组件，我们可以自己定义不同的component并加入到pipeline中训练自己的chatbot，下面以自定义一个bert-blstm-crf模块为例，分析如何构建一个自定义模块。

2022-06-28 14:17:05 878

原创【RASA】NLU模块组件分析

首先介绍一下rasa中nlu模块自带的组件，然后给出一些常用的pipeline配置方式，最后介绍如何添加自定义组件以及如何配置它们。

2022-06-28 14:13:18 1289

原创【RASA】交互学习（interactive learning）

rasa core模块提供了一种交互学习（interactive learning）用来获取所需要的样本数据，可以减少人工构建story时一些考虑不周的问题。在interactive learning时，用户向机器人提供反馈，然后用于生成样本数据。2、开启interactive learning（1）已有训练好的模型（2）没有训练好的模型，rasa会先训练好模型，然后再开启交互式会话或者（没有已训练模型情况），rasa会先训练好模型，再开启交互式学习会话交互界面如图所示：结束后，在s

2022-06-28 13:59:16 2339

原创【RASA】Core模块

Rasa的故事是一种训练数据的形式，用来训练Rasa的对话管理模型。故事是用户和人工智能助手之间的对话的表示，转换为特定的格式，其中用户输入表示为相应的意图(和必要的实体)，而助手的响应表示为相应的操作名称。Rasa核心对话系统的一个训练示例称为一个故事。 example： ## greet + location/price + cuisine + num people * greet - utter_greet * inform{"locati............

2022-06-28 11:00:49 1123

原创【RASA】安装与项目构建

【RASA】安装与项目构建

2022-06-28 10:43:32 2328

原创【AnyQ】环境搭建

【AnyQ】环境搭建

2022-06-28 10:36:51 353

原创【发音测评三】gop_speechocean762 compute-gop.cc源码阅读

【发音测评三】gop_speechocean762 compute-gop.cc源码阅读

2022-06-28 09:59:39 861

原创【发音测评二】gop_speechocean762 run.sh源码阅读

【发音测评二】gop_speechocean762 run.sh源码阅读

2022-06-28 09:25:59 379

原创【发音测评一】流程梳理

利用 kaldi 中gop_speechocean762 的run.sh 代码，通过处理一个音频文件（含有英文单词：FABULOUS的音频），梳理了代码的主要执行流程。

2022-06-27 17:21:15 317

原创语音数据标注规范

语音数据标注规范

2022-06-27 15:17:17 3970

原创【kaldi】常用工具和mono训练结果解析

【kaldi】常用工具和mono训练结果解析

2022-06-27 15:00:53 640

原创【kaldi】aidatatang_200zh三音素源码逻辑梳理

【kaldi】aidatatang_200zh三音素源码逻辑梳理

2022-06-27 14:46:09 220

原创【kaldi】运行aidatatang_200zh脚本解析

aidatatang_200zh脚本解析markdown链接 (有道云笔记)格式16kHz 16bit，wav，单声道run.sh1. 环境配置 cmd.sh 硬件配置（单机/集群配置，单机修改成run.pl) path.sh 环境变量配置（导入环境变量） data 语料库位置 data_url 下载语料库的url （中国镜像已经关闭）2. 下载数据输入：语料库位置（$data）数据下载路径（$data_url）输出：在$data文件夹下新增解压后的语料库（corpu

2022-06-27 14:37:17 783

原创【kaldi】如何进行DNN序列鉴别性训练

传统的用DNN语音识别，在逐帧训练中，使用了交叉熵（CE）准则来最小化期望帧错误。但是，语音识别本质上是一个序列分类问题，更关心序列的准确性。所以我们需要引入一些更契合这种问题的序列鉴别性训练方法（sequence-discriminative training，SDT），比如常用的最大互信息准则（MMI）、增强型最大互信息准则（BMMI）、最小音素错误准则（MPE）和状态级最小贝叶斯风险准则（sMBR）等。根据实验结果表明，序列鉴别性训练方法相比CE训练的模型可以获得大约3%到17%的相对错误率下降。语音

2022-06-27 14:20:56 686

原创【kaldi】chain-model训练时，加载预训练模型

最近在用chain-model训练时偶尔会出现找不到GPU卡而训练终止。而很烦的是原本的代码，中途训练终止时，重新训练的话，又得重头开始跑，对于跑一遍流程需要好多天的我来说，真的伤不起。所以通过查看源码，了解了chain-model加载预训练模型的方案，这样即使出现异常，也能从失败的地方继续训练。这个方法只需要在源码中简单的改几个地方即可。详细如下面介绍。......

2022-06-27 14:06:00 430

原创【kaldi】chain-model的TCP server部署

用kaldi提供的脚本部署chain-model的TCP server。

2022-06-27 13:46:47 504

原创【kaldi】chain-model在线解码（以aishell数据集为例）

以aishell数据集为例，演示如何进行chain-model在线解码。

2022-06-27 11:19:49 659

原创【kaldi】运行aishell脚本解析

local/aishell_prepare_dict.sh $data/resource_aishell生成data/local/dict目录下的内容 extra_questions.txt lexiconp.txt lexicon.txt nonsilence_phones.txt optional_silence.txt silence_phones.txtextra_questions.txt:用来构建决策树的问题集，可以是空的，包含多组相同的音素，每一组音素包含相同的重音或者声调；lexi

2022-06-27 11:04:08 479

空空如也

空空如也