- 博客(280)
- 收藏
- 关注
原创 深度学习系列69:tts技术原理
tts为text-to-speech,asr为Automatic Speech Recognition,即speech-to-text。
2024-09-02 16:48:01 803 1
原创 深度学习系列74:语音中的mel谱
一个人说一句话,其 waveform 可以很不一样,但是 spectrogram 基本上会相似,甚至有人可以通过 spectrogram 来判断说话的内容。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。DFT(Discrete Fourier Transform)是将连续音频信号转换为离散频域表示的一项重要操作。DFT是一种数学变换,用于将时域信号(如音频波形)转换为频域表示。
2024-09-02 16:26:39 929
原创 深度学习系列73:使用rapidStructure进行版面分析
项目地址https://github.com/RapidAI/RapidStructure?
2024-08-28 18:26:42 390
原创 深度学习系列71:表格检测和识别
原图为:https://www.95598.cn/omg-static/99107281818076039603801539578309.jpg。
2024-08-26 11:51:09 708
原创 深度学习系列70:模型部署torchserve
ts文件夹下,从launcher.py进入,执行jar文件。入口为model_server.py的start()函数。
2024-07-25 16:37:54 493
原创 深度学习系列69:模型部署的基础知识
为了让模型最终能够部署到某一环境上,开发者们可以使用任意一种深度学习框架来定义网络结构,并通过训练确定网络中的参数。之后,模型的结构和参数会被转换成一种只描述网络结构的中间表示,一些针对网络结构的优化会在中间表示上进行。最后,用面向硬件的高性能编程框架(如 CUDA,OpenCL)编写,能高效执行深度学习网络中算子的推理引擎会把中间表示转换成特定的文件格式,并在对应硬件平台上高效运行模型。return out。
2024-07-25 12:46:18 1188
原创 运筹系列93:VRP精确算法
MTZ是Miller-Tucker-Zemlin inequalities的缩写。除了定义是否用到边xij外,还需要定义一个ui用来表示此时车辆的当前载货量。注意这里x变量需要定义为有向。MTZ的求解速度不快,10个点3辆车都需要3秒左右时间。
2024-06-24 14:08:22 625
原创 收音机的原理笔记
人类听觉范围为20 Hz-20 kHz,多数人声的频率范围在340 Hz到3.4KHz之间。收音机的基本架构如下图所示,天线接收电波信号,通过输入调谐选出所需的频带。其经过高频放大后,由检波电路分离出音频信号,再经过音频功率放大器进一步放大,驱动喇叭发出声音。我们不直接传输信号,而是将信号叠加到载波上。载波,是一种运载声音信号的高频波,本身不传递有效信息,但频率很高,可以被天线正常接收到。无线电广播:将原来用电线传输的信号转化为电磁波,通过信号塔发送,听众只需安装天线接收电信号即可。
2024-06-11 08:10:59 504
原创 python系列29:压测工具locust
然后打开web页面:点击start,会执行脚本代码,调用hello和world接口。ramp-up的设置,一般而言:100以内的并发用户数,ramp-up时间设置为1-2s;100-500左右,rramp-up时间设置为2-3s;500以上,ramp-up时间设置为5-10s。
2024-06-03 10:52:14 865
原创 深度学习系列68:声音克隆项目OpenVoice和FishSpeech
OpenVoice 是 myshell ai 开源的一款基于人工智能技术的语音克隆工具。其核心功能是通过提供发言者的短音频片段(参考语音),实现声音的高效克隆。这意味着您可以使用OpenVoice来克隆任何人的声音,而且不限于特定语言。无论您是想要模仿某位名人的声音,还是需要在不同语言之间进行语音转换,OpenVoice都能够满足您的需求。OpenVoice还可以实现音色克隆和控制。
2024-05-14 10:27:13 755
原创 运筹系列92:vrp算法包VROOM
详见:https://github.com/VROOM-Project/vroom/blob/master/docs/API.md需要定义如果没有指定经纬度和地图server的话,则需要定义matrices。
2024-05-13 15:01:15 837 1
原创 深度学习系列67:制作聊天机器人
tresponse = requests . post ( url , headers = headers , json = data , verify = False )if response . status _ code ==200:return response . json ()[" choices “][0][” message “][’ content ‘]else :return “我没有听清”async def read ( text ):tts = edge _ tts .
2024-04-24 16:58:43 1092 1
原创 深度学习系列64:数字人wav2lip详解
总体步骤差不多,但是相比于openHeygen要简化很多第一步,加载视频/图片和音频/tts。同样是用melspectrogram将wav文件拆分成mel_chunks。第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。
2024-04-23 13:32:01 2518
原创 深度学习系列65:数字人openHeygen详解
从inference.py函数进入,主要流程包括:1) 使用cv2获取视频中所有帧的列表,如下:2)定义Croper。核心代码为69行:full_frames_RGB, crop, quad = croper.crop(full_frames_RGB)。其中crop是头肩位置,quad是人脸位置,得到的新的full_frames_RGB为人脸区域的截图。5)进行图像增强,使用的是GPEN-BFR-512模型,图片变高清了:6)接下来加载wav语音文件,并拆成块7)进行lipSync,如下图。
2024-04-21 20:46:54 739
原创 运筹系列90:生产线运输问题的julia求解
我们不妨假设仓库有3种物料需要搬运到生产线,搬运时间都是3min。三种物料假设都需要搬运3件,有2个叉车可以进行搬运,每个叉车每次智能搬运一件。
2024-04-10 08:16:34 240
原创 深度学习系列63:常用tts
使用sherpa的参考代码如下,模型下载地址见https://hf-mirror.com/csukuangfj/vits-zh-aishell3。
2024-03-22 09:56:35 677
原创 深度学习系列62:Agent入门
agent的核心是其代理协同工作的能力。每个代理都有其特定的能力和角色,你需要定义代理之间的互动行为,即当一个代理从另一个代理收到消息时该如何回复。agent目前大多使用openai标准接口调用LLM服务,说明如下。标准接口示例如下,其中role包括:system(设定了 AI 的行为和角色,和背景),user(我们输入的问题或请求),assistant(自动生成)
2024-03-13 11:02:46 781
原创 深度学习系列59:文字识别ocr
使用google加的tesseract,效果不错。首先安装tesseract,在mac直接brew install即可。
2024-02-21 20:23:40 780
原创 运筹系列89:anylogic仿真软件入门
这里概述一下help文档中Supply chain GIS model例子的要点:触发事件的agent和执行任务的agent。在这个案例中,触发事件的agent是retailer,不断有订单生成;而执行任务的agent是vehicle,不断将订单运从distributor运送到retailer。模型的最终效果如下图:首先需要设计agent。在供应链的例子中,设计了4种agent。其中dis和order最简单,order就是个classret需要包含一个,用于生成order,寻找veh。
2024-02-20 09:28:13 1178
原创 深度学习系列53:大模型微调概述
固定大部分参数,仅训练少量的参数来驱动大模型。下图是delta-tuning和fine-tuning的区别。左边的fine-tuning中,每个任务都全量微调,得到一个新的模型,如果有100个任务,那么最终会给出100个数十G的大模型;但是在delta-tuning中,PLM参数大部分是固定的,每个任务只需要训练和记录有修改部分的参数(delta-object)即可。delta-tuning分为以下三大类:增加额外参数(A)、选取一部分参数更新(S)、引入重参数化(R)。
2024-02-17 18:32:17 1387
原创 深度学习系列57: 清华大模型MiniCPM上手
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。
2024-02-04 16:38:26 1026
原创 python系列28:fastapi部署应用
FastAPI 是一个用于构建 API 的现代、快速(高性能)的 web 框架,类似flask,Django,webpy在部署时可能需要用到下面的库:Uvicorn 或者 Hypercorn负责ASGI 服务器。Starlette 负责 web 部分。Pydantic 负责数据部分。都用pip install安装即可。
2024-01-15 13:59:26 841
原创 Julia系列16:Julia与python/c互调
通过PyCall包,Julia可以直接调用Python包。数值、布尔、字符串、IO stream、函数、元组、数组或列表、以及包含这些类型的字典等,它们都会自动进行类型的转换(Python函数会被转换或传递为Julia的函数,反之亦然)。其它类型则是通过通用的PyObject提供的。
2024-01-15 12:41:14 644
原创 运筹系列88:JuMP中的约束规划(constraint programming)
在constraint programming中,objective是不起作用的,调用optimize!(model)后,会给出满足约束的可行解。使用JuMP的约束规划API,可以极大简化模型。
2024-01-10 15:34:13 1081
原创 运筹系列87:julia求解随机动态规划问题入门
看一个简单的数值优化的例子:我们将其建立为一个N阶段的问题:初始值为M。结果为非常接近理论最优值。
2023-12-18 11:17:35 1348
原创 大数据系列15:lightgbm笔记
建议用conda安装。首先安装miniconda,在官网下载对应的版本。然后将系统的python和pip定位到miniconda文件夹下。然后用conda安装lightgbm,在Mac m2芯片上测试可行。(用pip直接安装通不过编译)。
2023-11-24 08:36:19 761
原创 深度学习系列54:LABEL-STUDIO进行半自动化目标检测标注
打开浏览器访问 http://localhost:8080/ ,建立一个新项目。此时不要着急save,需要先点击后面的Labeling Setup连接第一步的目标检测服务。看到如下 Connected 就说明后端推理服务添加成功。在mmdetection文件夹中,执行。另开一个terminal,执行。
2023-11-20 09:39:36 821
原创 深度学习系列53:mmdetection上手
建议使用coco格式,参见https://cocodataset.org/#format-data。文件从头至尾按照顺序分为以下段落:下面是从instances_val2017.json文件中摘出的一个annotation的实例,这里的segmentation就是polygon格式:“id”: 1768},从instances_val2017.json文件中摘出的2个category实例如下所示:“id”: 1,},“id”: 2,},
2023-11-19 08:37:03 925
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人