- 博客(286)
- 收藏
- 关注
原创 深度学习系列76:流式tts的一个简单实现
使用queue,producer不断向queue中添加audio,然后consumer不断从queue中消费audio。下面的样例使用melo来生成语音,需要先下载melo.tts。
2025-01-23 15:18:41
353
原创 electron基本教程
入口main.js,在app中启动一个window加载preload.js和html文件,然后html中添加render.js用于渲染。
2024-11-27 11:29:55
968
原创 slam系列4:nerf和3dgs
常用的3维表示法:NeRF属于是density的模型,模型的参数如下:传统的 3D 模型表示方法,如 离散的Mesh 和点云,以及连续的 Nerf,通常面临着一个主要问题:随机采样过程中产生的噪声,这直接影响了渲染质量。3DGS 是在离散和连续间的一个平衡:在高斯球内部是连续的、可微的;在整个空间中,每个高斯球又是离散的。
2024-10-17 10:31:54
1478
原创 slam系列1:open3d入门笔记
这里有很多测试用的pcd文件:https://github.com/PointCloudLibrary/data/blob/master/tutorials/2.2 滤波统计滤波半径滤波2.3 聚类和分割2.4 曲面重建目前实现了如下几种:我们对比一下效果
2024-10-10 15:26:05
274
原创 深度学习系列77:tts技术原理
tts为text-to-speech,asr为Automatic Speech Recognition,即speech-to-text。
2024-09-02 16:48:01
1212
1
原创 深度学习系列74:语音中的mel谱
一个人说一句话,其 waveform 可以很不一样,但是 spectrogram 基本上会相似,甚至有人可以通过 spectrogram 来判断说话的内容。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。DFT(Discrete Fourier Transform)是将连续音频信号转换为离散频域表示的一项重要操作。DFT是一种数学变换,用于将时域信号(如音频波形)转换为频域表示。
2024-09-02 16:26:39
1423
原创 深度学习系列73:使用rapidStructure进行版面分析
项目地址https://github.com/RapidAI/RapidStructure?
2024-08-28 18:26:42
567
原创 深度学习系列71:表格检测和识别
原图为:https://www.95598.cn/omg-static/99107281818076039603801539578309.jpg。
2024-08-26 11:51:09
970
原创 深度学习系列70:模型部署torchserve
ts文件夹下,从launcher.py进入,执行jar文件。入口为model_server.py的start()函数。
2024-07-25 16:37:54
606
原创 深度学习系列69:模型部署的基础知识
为了让模型最终能够部署到某一环境上,开发者们可以使用任意一种深度学习框架来定义网络结构,并通过训练确定网络中的参数。之后,模型的结构和参数会被转换成一种只描述网络结构的中间表示,一些针对网络结构的优化会在中间表示上进行。最后,用面向硬件的高性能编程框架(如 CUDA,OpenCL)编写,能高效执行深度学习网络中算子的推理引擎会把中间表示转换成特定的文件格式,并在对应硬件平台上高效运行模型。return out。
2024-07-25 12:46:18
1305
原创 运筹系列93:VRP精确算法
MTZ是Miller-Tucker-Zemlin inequalities的缩写。除了定义是否用到边xij外,还需要定义一个ui用来表示此时车辆的当前载货量。注意这里x变量需要定义为有向。MTZ的求解速度不快,10个点3辆车都需要3秒左右时间。
2024-06-24 14:08:22
921
原创 收音机的原理笔记
人类听觉范围为20 Hz-20 kHz,多数人声的频率范围在340 Hz到3.4KHz之间。收音机的基本架构如下图所示,天线接收电波信号,通过输入调谐选出所需的频带。其经过高频放大后,由检波电路分离出音频信号,再经过音频功率放大器进一步放大,驱动喇叭发出声音。我们不直接传输信号,而是将信号叠加到载波上。载波,是一种运载声音信号的高频波,本身不传递有效信息,但频率很高,可以被天线正常接收到。无线电广播:将原来用电线传输的信号转化为电磁波,通过信号塔发送,听众只需安装天线接收电信号即可。
2024-06-11 08:10:59
1307
原创 python系列29:压测工具locust
然后打开web页面:点击start,会执行脚本代码,调用hello和world接口。ramp-up的设置,一般而言:100以内的并发用户数,ramp-up时间设置为1-2s;100-500左右,rramp-up时间设置为2-3s;500以上,ramp-up时间设置为5-10s。
2024-06-03 10:52:14
1173
原创 深度学习系列68:声音克隆项目OpenVoice和FishSpeech
OpenVoice 是 myshell ai 开源的一款基于人工智能技术的语音克隆工具。其核心功能是通过提供发言者的短音频片段(参考语音),实现声音的高效克隆。这意味着您可以使用OpenVoice来克隆任何人的声音,而且不限于特定语言。无论您是想要模仿某位名人的声音,还是需要在不同语言之间进行语音转换,OpenVoice都能够满足您的需求。OpenVoice还可以实现音色克隆和控制。
2024-05-14 10:27:13
1189
原创 运筹系列92:vrp算法包VROOM
详见:https://github.com/VROOM-Project/vroom/blob/master/docs/API.md需要定义如果没有指定经纬度和地图server的话,则需要定义matrices。
2024-05-13 15:01:15
922
1
原创 深度学习系列67:制作聊天机器人
tresponse = requests . post ( url , headers = headers , json = data , verify = False )if response . status _ code ==200:return response . json ()[" choices “][0][” message “][’ content ‘]else :return “我没有听清”async def read ( text ):tts = edge _ tts .
2024-04-24 16:58:43
1166
1
原创 深度学习系列64:数字人wav2lip详解
总体步骤差不多,但是相比于openHeygen要简化很多第一步,加载视频/图片和音频/tts。同样是用melspectrogram将wav文件拆分成mel_chunks。第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。
2024-04-23 13:32:01
3372
原创 深度学习系列65:数字人openHeygen详解
从inference.py函数进入,主要流程包括:1) 使用cv2获取视频中所有帧的列表,如下:2)定义Croper。核心代码为69行:full_frames_RGB, crop, quad = croper.crop(full_frames_RGB)。其中crop是头肩位置,quad是人脸位置,得到的新的full_frames_RGB为人脸区域的截图。5)进行图像增强,使用的是GPEN-BFR-512模型,图片变高清了:6)接下来加载wav语音文件,并拆成块7)进行lipSync,如下图。
2024-04-21 20:46:54
791
原创 运筹系列90:生产线运输问题的julia求解
我们不妨假设仓库有3种物料需要搬运到生产线,搬运时间都是3min。三种物料假设都需要搬运3件,有2个叉车可以进行搬运,每个叉车每次智能搬运一件。
2024-04-10 08:16:34
268
原创 深度学习系列63:常用的中文tts(更新中)
使用sherpa的参考代码如下,模型下载地址见https://hf-mirror.com/csukuangfj/vits-zh-aishell3。
2024-03-22 09:56:35
1000
原创 深度学习系列62:Agent入门
agent的核心是其代理协同工作的能力。每个代理都有其特定的能力和角色,你需要定义代理之间的互动行为,即当一个代理从另一个代理收到消息时该如何回复。agent目前大多使用openai标准接口调用LLM服务,说明如下。标准接口示例如下,其中role包括:system(设定了 AI 的行为和角色,和背景),user(我们输入的问题或请求),assistant(自动生成)
2024-03-13 11:02:46
1052
原创 深度学习系列59:文字识别ocr
使用google加的tesseract,效果不错。首先安装tesseract,在mac直接brew install即可。
2024-02-21 20:23:40
835
原创 运筹系列89:anylogic仿真软件入门
这里概述一下help文档中Supply chain GIS model例子的要点:触发事件的agent和执行任务的agent。在这个案例中,触发事件的agent是retailer,不断有订单生成;而执行任务的agent是vehicle,不断将订单运从distributor运送到retailer。模型的最终效果如下图:首先需要设计agent。在供应链的例子中,设计了4种agent。其中dis和order最简单,order就是个classret需要包含一个,用于生成order,寻找veh。
2024-02-20 09:28:13
1501
原创 深度学习系列53:大模型微调概述
固定大部分参数,仅训练少量的参数来驱动大模型。下图是delta-tuning和fine-tuning的区别。左边的fine-tuning中,每个任务都全量微调,得到一个新的模型,如果有100个任务,那么最终会给出100个数十G的大模型;但是在delta-tuning中,PLM参数大部分是固定的,每个任务只需要训练和记录有修改部分的参数(delta-object)即可。delta-tuning分为以下三大类:增加额外参数(A)、选取一部分参数更新(S)、引入重参数化(R)。
2024-02-17 18:32:17
1489
原创 深度学习系列57: 清华大模型MiniCPM上手
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。
2024-02-04 16:38:26
1148
原创 python系列28:fastapi部署应用
FastAPI 是一个用于构建 API 的现代、快速(高性能)的 web 框架,类似flask,Django,webpy在部署时可能需要用到下面的库:Uvicorn 或者 Hypercorn负责ASGI 服务器。Starlette 负责 web 部分。Pydantic 负责数据部分。都用pip install安装即可。
2024-01-15 13:59:26
968
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人