- 博客(102)
- 收藏
- 关注
原创 Windows安装安卓模拟器
前置条件:Hyper-V enabled 或 ubuntu (~8G)+Vbox (AMD-V enabled);比如,arm apps(如微信)在x86设备安装运行的话,需要arm native bridge,Magisk 可以帮忙root以及使用各种工具脚本,waydroid可以支持;适合测试App,需要RAM开销大。整机模拟所以开机消耗大。
2024-08-19 20:07:29 961
原创 Speech Synthesis (LASC11062)
PSOLA 算法的原理是:将原始语音信号与一 系列基音同步窗相乘得到一系列短时分析信号: 将短时分析信号修正后得到短时合成信号,根据 原始语音波形信号和目标波形的基音曲线和音 长,确定二者之间的基音周期映射,从而确定所 需的短时基音序列;将合成的短时基音序列与目 标基音周期同步排列,重叠相加得到基音波形, 此时合成的语音波形就是所期望的基音周期曲线 和音长。音高(基频 f0) 的修改是通过改变基频之间的时间间隔得到的, 音长的修正是通过重复或者省略一些语音片断来 完成。更聪明做法,引入lag去找重合。
2024-08-19 20:07:20 801
原创 Speech Processing (LASC11158)
Consonants(辅音) are speech sounds that are made with some degree of constriction in the vocal tract 声道.Phoneticians define consonants according to three articulatory dimensions:定位元音 (Cardinal vowels): 当舌头位于极端的位置,发出的元音就是定位元音,不论位置的前后或高低。Full IPA chart designe
2024-03-10 07:57:37 1173
原创 连接时序分类 Connectionist Temporal Classification (CTC)
CTC全称Connectionist temporal classification,是一种常用在语音识别、文本识别等领域的算法,用来解决输入和输出序列长度不一、无法对齐的问题。在CRNN中,它实际上就是模型对应的损失函数(CTC loss)。
2024-03-10 07:56:10 2037
原创 NLP入门- 分布语义学(Distributional Semantics)
我们已经学习了将文档作为上下文的 TF-IDF 矩阵,以及将单词作为上下文的 PMI/PPMI 矩阵。很重要的一点是,无论我们采用文档还是单词作为上下文信息,我们都可以利用 SVD 来创建密集向量。但是,通过不同的上下文信息所捕获到的关系是不一样的,如果我们采用 TF-IDF,我们捕获到的语义学信息会更加宽泛,通常和某种主题关联;如果我们采用 PMI/PPMI,我们捕获到的词向量更多是关于局部单词上下文的语义学信息。2. 神经网络方法Word2Vec:学习一个分类器,给定词向量预测上下文向量。
2023-12-20 04:44:06 1334
原创 矩阵论(Matrix)
大纲矩阵微积分:多元微积分的一种特殊表达,尤其是在矩阵空间上进行讨论的时候逆矩阵(inverse matrix)矩阵分解:特征分解(Eigendecomposition),又称谱分解(Spectral decomposition);LU分解;奇异值分解(singular value decomposition);QR分解;科列斯基分解矩阵行列式(Determinant):在欧几里得空间中,行列式描述的是一个线性变换对“体积”所造成的影响特征向量(eigenvector):Av=λvAv=\l
2023-11-24 20:08:09 1836
原创 语音合成综述Speech Synthesis
语音信号的产生分为两个阶段,信息编码和生理控制。首先在大脑中出现某种想要表达的想法,然后由大脑将其编码为具体的语言文字序列,及语音中可能存在的强调、重读等韵律信息。经过语言的组织,大脑通过控制发音器官肌肉的运动,产生出相应的语音信号。其中第一阶段主要涉及人脑语言处理方面,第二阶段涉及语音信号产生的生理机制。 从滤波的角度,人体涉及发音的器官可以分为两部分:激励系统和声道系统。激励系统中,储存于肺部的空气源,经过胸腔的压缩排出,经过气管进入声带,根据发音单元决定是否产生振动,形成准周期的脉冲空气激励流或
2023-11-24 20:05:46 3827
原创 EM算法解析+代码
大纲数学基础:凸凹函数,Jensen不等式,MLEEM算法公式,收敛性HMM高斯混合模型一、数学基础1. 凸函数通常在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值,对于一些特殊的函数,凸函数与凹函数,任何局部极值也是全局极致,因此如果目标函数是凸的或凹的,那么优化算法就能保证是全局的。定义1:集合Rc⊂EnR_c\subset E^nRc⊂En是凸集,如果对每对点x1,x2⊂Rc\textbf{x}_1,\textbf{x}_2\subset R_cx1
2023-10-30 01:46:20 910
原创 【机器学习】loss损失讨论
值需要设置成比 'Validation Error 开始上升 ’ 的值更小,1/2 处甚至更小,结果更优”,所以我仔细观察了下没有加 Flooding 模型损失值变化图,大概在 loss 为 0.75 到 1.0 左右的时候开始出现过拟合现象,因此我又分别设置了。一般来说,我们是用训练集来训练模型,但希望的是验证机的损失越小越好,而正常来说训练集的损失降到一定值后,验证集的损失就会开始上升,因此没必要把训练集的损失降低到 0。了,也就是说一开始就把梯度惩罚给加了进去,这样能提升模型的泛化性能吗?
2023-10-30 01:42:31 1962 1
原创 NLP入门——语言结构/语言建模
1. 语素 morphemes词素是最小的有意义的语言单位,不能够进一步划分为更小的单位而不破话或彻底改变其词汇意义或语法意义。语素和词的区别在于,许多语素不能独立存在。而能够单独存在并且有意义的语素叫做;不能独立存在,要借助其他语素表达意义的语素则称之为。每个词都包含最少一个语素。按能否需要特别指出,有时候派生语素和屈折语素会采用同一种表现形式。比如说,-er,当这个后缀跟在形容词后面,它作为屈折语素,表示比较级;当跟在动词后面,则是一个派生语素,形成一个新词,如cook-cooker。从。
2023-10-24 00:01:19 6353
原创 多元高斯分布全解析
首先我们知道一元高斯分布是:N(x∣u,σ2)=12πσ2exp[−12σ2(x−u)2]N(x|u,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}exp[-\frac{1}{2\sigma^2}(x-u)^2]N(x∣u,σ2)=2πσ21exp[−2σ21(x−u)2], 拓展到高维时:N(x‾∣u‾,Σ)=1(2π)D/21∣Σ∣1/2exp[−12(x‾−u‾)TΣ−1(x‾−u‾)]N(\overline x | \overline u, \Sigma)=
2023-10-23 06:11:03 1899
原创 混合专家模型 Mixture-of-Experts (MoE)
比如在MoE论文的一些实验中,作者采用了n=512,k=2的设定,也就是每次只会从512个专家网络中挑选两个来激活。每个专家模型都是相对独立的,可以根据任务的需求选择不同的模型架构。通过稀疏模型MoE扩大大语言模型的方法:以GLaM模型为例,它包含1.2T个参数,但实际上被激活的参数(activated parameters)只有97B,远少于GPT-3,也就是说,它是稀疏激活的MoE。第二个变动是加了noise,这个的目的是为了做均衡,这里引入了一个Wnoise的参数,后面还会在损失函数层面进行改动。
2023-10-22 05:59:17 5544
原创 Linux知识点+命令
1. 简介Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。Linux 能运行主要的 UNIX 工具软件、应用程序和网络协议。它支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux的应用通常服务器使用 LAMP(Linux + Apache + MySQL + PHP)或 LNMP(Linux + Nginx+ M
2023-09-27 22:45:04 153
原创 人工神经网络ANN:数学总结
x0为S形曲线中点的x值;L为曲线的最大值;k为逻辑斯谛增长率或曲线的陡度。锚点样本正样本的负样本常见的径向基函数包括(
2023-09-24 05:58:06 330
原创 tokenizers总结
"annoying"并"ly"作为独立的子词会更频繁地出现,同时,"annoyingly"是由"annoying"和"ly"这两个子词的复合含义构成的复杂含义,这在诸如土耳其语之类的凝集性语言中特别有用,在该语言中,可以通过将子词串在一起来形成(几乎)任意长的复杂词。将word-level的分词方法改成 char-level的分词方法,对于英文来说,就是字母界别的,比如 "China"拆分为"C","h","i","n","a",对于中文来说,"中国"拆分为"中","国",
2023-09-19 21:15:43 879
原创 数据科学的文本技术 Text Technology(IR信息检索、搜索引擎)
有人或许会以牛津英语词典(Oxford English Dictionary)作为一个标准的尺度,它里面的单词数目前超过了600,000,但是对于大部分大规模的文档集来说,其词汇量会远远大于这个数目,因为词典不会包含人名之类的特殊词汇。中间的绿色表示 DF (Document Frequency),即出现某词项的文档的数量,这里也就是词项对应的倒排记录表(Posting List)的长度;现在看来会有些多余,因为现在的我们只要在类似问题中提到的索引,都是从“词项”反映射到“文档”,这已成为主流的索引方式。
2023-09-16 02:02:21 563
原创 目标检测入门
基于深度学习的目标检测大致可以分为一阶段(One Stage)模型和二阶段(Two Stage)模型。目标检测的一阶段模型是指没有独立地提取候选区域(Region Proposal),直接输入图像得到图中存在的物体类别和相应的位置信息。典型的一阶段模型有SSD(Single Shot multibox-Detector)[4]、YOLO(You Only Look Once)[5]系列模型等。
2023-09-11 19:50:30 681
原创 模型量化(Model Quantization)
模型量化(Model Quantization)通过某种方法。比如说原来的模型里面的权重(weight)都是float32,通过模型量化,将模型变成权重(weight)都是int8的定点模型IEEE标准中的FP16格式如下:取值范围是5.96× 10−8 ~ 65504,而FP32则是1.4×10-45 ~ 3.4×1038。从FP16的范围可以看出,用FP16代替原FP32神经网络计算的最大问题就是精度损失。
2023-08-27 00:42:40 1388
原创 NLP语言模型概览
Pre-trained Language Model(PLM)模型BERT 具有两种输出,一个是pooler output,对应的[CLS]的输出,以及sequence output,对应的是序列中的所有字的最后一层hidden输出。所以BERT主要可以处理两种,一种任务是分类/回归任务(使用的是pooler output),一种是序列任务(sequence output)
2023-08-10 19:55:35 3694
原创 大语言模型LLM
2020年1月,OpenAI发表了论文《Scaling Laws for Neural Language Models》,研究了基于交叉熵损失的语言模型性能的经验尺度法则,并且发现:大模型使用样本的效率显著更高,因此最优的高效训练方式是在中等数据集上训练超大模型,并在显著收敛前提前停止。由于指令微调阶段训练了非常多的任务,大模型任务能力可以泛化到之前没有见过的任务上,这使得模型初步具备了回答人们提出的任何指令的可能。,使用 LoRA 进行的微调质量与全模型微调相当,同时速度更快且需要更少的计算。
2023-07-26 19:11:41 2272
原创 Python定时检测无响应进程并重启(Win/Linux)
p.cpu_affinity() #get进程cpu亲和度,如果要设置cpu亲和度,将cpu号作为参考就好。p.cpu_times() #进程的cpu时间信息,包括user,system两个cpu信息。p.num_threads() #进程开启的线程数p.username() #执行用户的名。p.io_counters() #进程的IO信息,包括读写IO数字及参数。p.memory_info() #进程内存rss,vms信息。p.gids() #进程的gid信息。
2023-06-25 09:30:03 1574
原创 深度学习代码环境配置(编译器, git, anaconda)
w64devkit 是 Windows 平台下使用的一个 C/C++ 跨平台编译环境。它可以在 Windows 上编译出能够在多个平台上运行的程序,例如:Windows, Linux, macOS。w64devkit 包含了大量的开源工具链和库,如。最近复现代码时需要编译源文件,总是报错,后来查验报错原因后,是由于电脑没能安装GCC。C 语言编译器用于把源代码编译成最终的可执行程序。它可以提供一个强大的编译环境,使得 Windows 平台的程序员们能够更容易地开发跨平台的程序。安装python包或库。
2023-06-24 08:37:28 1266
原创 LangChain: LLM应用开发框架
LangChain创建于2022年10月,是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。模型(models): LangChain 支持的各种模型类型和模型集成。提示(prompts): 包括提示管理、提示优化和提示序列化。内存(memory)
2023-06-22 21:41:18 1207
原创 内网穿透(NAT 穿透)原理+工具(部分无需管理员权限)
内网穿透,即 NAT(Network Address Translation) 穿透内网穿透的,内网地址转换成外网地址的实现。实现过程要有端对端数据传输,也有端口转发原理。内网映射方式,可以解决无公网IP问题,及外网访问内网的通用方案。是为了使具有某一个特定源 IP 地址和源端口号的数据包不被 NAT 设备屏蔽而正确路由到内网主机(因为NAT设备自动屏蔽了非内网主机主动发起的连接,从而保护外部网络的攻击但也为P2P通信带来困难)。
2023-06-20 19:57:44 4832
原创 Python获取硬件、网络、进程信息
psutil是Python的第三方模块,专门用来获取操作系统以及硬件相关的信息,比如:CPU、磁盘、网络、内存等等。
2023-06-20 18:26:12 1846
原创 3d重建+神经渲染
从这些训练视点,渲染估计的3D场景,并最小化渲染图像和观察图像之间的差异,根据这些观察结果训练网络。与使用神经网络学习渲染函数的方法相反,NeRF在该方法中更明确地使用了计算机图形学的知识,由于(物理)归纳偏差,能够更好地概括新视图:场景密度和半径的中间3D结构化表示。因此,NeRF在3D空间中学习物理上有意义的颜色和密度值,物理激发的光线投射和体集成可以持续渲染到新视图中。在该架构中,首先提取深层的视觉图像特征,然后通过可微分的单应变换,基于参考视图的相机视锥体构建3D代价体。
2023-06-18 18:04:44 1838
原创 【Research】深度学习音乐生成
由于不同的原因,不同的人对音乐的感知是不同的。这个概念除了象征性的或与乐谱有关的音乐思想外,还包括音色或动态等表演元素,特别是当作曲家是一个有成就的音乐家时。根据数据的输入和输出特征,基于人工智能的音乐生成基本上可以从两个角度来看:符号域(symbolic domain)和音频域(audio domain)。本质上,无论top-k/top-p还是temprature sampling都是在优化解码词概率分布,通过re-scaling,尽量让生成的句子多样性更好,同时不损失通顺度。来防止退化和增加多样性。
2023-06-15 10:34:49 1048
原创 云服务器搭建和连接
服务器管理包括为优化服务器性能和最大限度地减少停机时间而执行的所有活动。服务器管理涉及两个基本步骤:网络监控和服务器维护。因为是服务器,所以常规使用方式还是用远程连接的方式。远程连接大体有两种,一种是ssh,这种直接进入命令行,用作服务器跑个程序还是很ok的。还有一种是远程桌面连接(RDC),下载的桌面版有必要搞个远程桌面。Secure Shell(SSH) 是由 IETF(The Internet Engineering Task Force) 制定的建立在应用层基础上的安全网络协议。
2023-06-15 10:24:14 3196
原创 Git分布式版本控制系统
Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。分布式相比于集中式的最大区别在于开发者可以提交到本地,每个开发者通过克隆(git clone),在本地机器上拷贝一个完整的Git仓库。Git 是基于 Linux内核开发的版本控制工具。从服务器上克隆(clone)完整的Git仓库(包括代码和版本信息)到单机上。在自己的机器上根据不同的开发目的,创建分支(branch),修改代码。在单机上自己创建的分支上提交(commit)代码。
2023-06-13 18:08:18 1170
原创 3D引擎和渲染
三维引擎按可分为;按用途可分为;常见的有UE4、Unity3D;CAD工程用的三维引擎又分商用的还有开源的,商用的比较著名的有ACIS、ParaSolid;开源的有OCCT;这些三维引擎都是基于等底层之上构建的;他们才能真正意义上的三维引擎;而OpenGL与DirectX只能称得上是而主要有Three.js、Babylon.js、Cesium.js等,这些B端的三维引擎几乎基于WebGL而开发的三维引擎,而webGL又是OpenGL ES的B端API封装集;
2023-06-08 20:03:33 2258
原创 (业务向) 数据分析知识 + 产品
指标,是反映某种事物或现象,描述在一定时间和条件下的规模、程度、比例、结构等概念,通常由指标名称和指标数值组成.简单计数型指标:指可通过重复加1这一数学行为而获得数值的指标,如UV(Unique Visit , 独立访客数)、PV(Page View,页面浏览量)复合型指标:由简单计数型指标经四则运算后得到的,如跳出率、购买转化率,MAU月活跃用户数,CTR=点击UV/曝光UV,用户留存率=继续的用户/新增用户数,ARPU每用户平均收入(1)按场景拆分成多个子指标的和DAU日活跃用户。...
2023-06-01 12:19:43 1040
原创 Docker容器 和 Kubernetes容器集群管理系统
Docker 是一个开源的应用容器引擎,基于Go语言并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。
2023-05-24 23:24:58 913
原创 【学习笔记】Cloud Computing
Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications and services) that can be rapidly provisioned and released minimal
2023-05-06 18:19:45 1243
原创 云计算(Cloud Computing)
结合起来交付给用户使用。企业的运营管理、决策分析都将基于云平台展开,人们将会过起一种“云上的日子”。它是一个系统、总体的概念、业务与技术融合的一体化概念,这一点对认识云很重要。从技术的角度来说,是将企业所有的服务器、存储等基础设施以及网络整合到统一的云平台上。在“云的世界”里,将。早期的云计算就是虚拟化主机上的分布式计算,现阶段的云计算,已经不单单是一种分布式计算,而是。等计算机技术混合演进并跃升的结果。云计算不是一种全新的网络技术,而是一种全新的网络概念。云计算是一种颠覆性的。
2023-05-02 10:17:53 2591
原创 神经网络算法入门和代码(感知机,RBF,SOM等)
感知机(Perceptron)反向传播算法(Back Propagation algorithm)RBF(Radial Basis Function,径向基函数) 网络:单一层前馈网络,它使用径向基作为隐层神经元激活函数ART(Adaptive Resonance Theory,自适应谐振理论) 网络:竞争型学习无监督学习策略SOM(Self Organizing Map,自组织映射) 网络:竞争性学习型的无监督神经网络级联相关(Cascade-Correlation) 网络:结构自适应网络El
2023-04-04 10:30:06 2778
原创 Kaggle notebook使用技巧
从/kaggle/working/的输出下载文件执行代码后显存变化量检测使用python Garbage Collection清理运行内存垃圾重置运行内存
2023-03-31 16:51:27 1281
原创 PyTorch入门手册
这个包本身并不包含数据集文件本身,其工作方式是先从网络上把数据集下载到用户指定目录,然后用它的加载器加载到内存中。在训练过程中可能不能一次性将所有数据全部加载到内存中,也不能只用一个进程去加载,所以就需要多进程、迭代加载,而Dataloader就是基于这些被设计出来,Dataloader。在训练或预测时,数据迭代器能够输出每一批次所需的数据,并且对数据进行相应的预处理与数据增强操作。的值生成一个batch的数据,节省内存的同时还可实现多进程、数据打乱等处理。embedding_dim 嵌入向量大小)
2023-03-29 10:35:59 1503
w64devkit 1.19.0 免安装C/C++开发组件 for x64 Windows
2023-06-22
python 文本处理中 空字符串却有长度
2022-10-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人