人工智能
西岸行者
问君能有几多愁,恰似一只鸡腿进不了口
展开
-
回顾理解Triplet-loss
用三国人物刘关张和诸葛亮的关系来类比一下APN三个兄弟和三种loss 标准原创 2020-10-22 17:54:48 · 1673 阅读 · 1 评论 -
用一文来串起attention,transformer,seq2seq的知识点
前两天正沾沾自喜的稍稍看明白点RNN,结果随便搜了一下,比较醒目的关是不是RNN完全可以废弃了?就冒了出来,仔细读来也不是危言耸听,神经网络在序列建模方面,经历了RNN,seq2seq,attention,transformer一系列的进化,现在的情况是RNN(lstm,gru)已经变成了入门玩家的学习基础了。原创 2020-10-14 17:48:57 · 265 阅读 · 0 评论 -
卷积虽好,处理序列还有更好的RNN
学习RNN LSTM,并用一个小例子介绍LSTM参数量如何计算原创 2020-10-09 16:55:13 · 403 阅读 · 1 评论 -
阅读理解:Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
阅读理解:Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis前言二级目录三级目录前言现在银行打来的电话,还有很多骚扰电话已经完全用自动语音服务来实现了,此处回顾一下语音服务的三大技术基础:TTS、ASR、SI/SV。伴随着DL技术的广泛应用,现在自动对话系统的体验越来越好,三项技术在DL引擎的驱动下,日新月异的发展,未来你通过电话想知道对方是不是人会很难的(现在银行打来的自动语音电话已经原创 2020-09-09 11:05:36 · 1139 阅读 · 0 评论 -
2020 经历 ubuntu16.04下的 caffe install
caffe install ubuntucaffe_compile prerequisites compileCould NOT find LMDB (missing: LMDB_INCLUDE_DIR LMDB_LIBRARIES)sudo apt install libgflags-dev libgoogle-glog-dev liblmdb-dev -yCould NOT find Atlas (missing: Atlas_CBLAS_LIBRARY Atlas_BLAS_LIBRARY原创 2020-08-04 16:17:43 · 941 阅读 · 0 评论 -
声纹识别背景学习
声纹, voiceprint,这个词听上去很神秘,可能主要使用因为虽然这个词汇来自于指纹,但是它真正长什么样是无法直观获取的原因吧,加之一些一知半解的玄幻广告,把这个词汇吹得神乎其神,其实可以理解为从人类声音提取的一组生物学特征,只是这个特征真的不如指纹那么直观,不仅仅决定于某个人发声器官的特性(没有两个人长得一模一样,也没有人的发声器官长得一幕一眼),而且受到了年龄、健康状况、心理状态、环境等等因素共同影响的。原创 2020-07-15 14:47:48 · 1013 阅读 · 0 评论 -
浅析mel滤波的快速计算
浅析mel滤波的快速计算基本计算方法快速计算方法矩阵计算方法迭代计算方法基本计算方法快速计算方法矩阵计算方法迭代计算方法原创 2020-07-09 14:18:01 · 1111 阅读 · 0 评论 -
从一点一滴开始学习了解LDA-Learning Linear Discriminate Analysis from scratch
learning ** from scratch大都翻译为从0开始学叉叉,不过真没见过谁能从0开始学一个比较深的技术或者理论,所以这篇名戏谑一下这个词。接触LDA刚开始就对Discraminiate翻译记不住,是差异、辨别,歧视,为什么选择判别作为汉语呢?这只是一系列疑问的开始,因为刚开始接触这个概念,确实连一知半解都谈不上,只是从别人画原创 2020-06-02 16:22:37 · 267 阅读 · 0 评论 -
语音特性提取回顾-从mel定标到mfc和mfcc
从mel定标到mfc和mfcc前言Mel 定标Mel滤波器组离散傅里叶变换Mel滤波器组实现插值MFC差了一个C前言做语音识别的真谛是不漏听一句话,不错听一句话,但能做到着实不易。拿漏听来说吧,用经典数学的方法和概率统计的方法虽然大大提高了识别率,但依然有漏网纸鱼,而且有的漏网纸鱼人类却觉得这句话很正常啊?!。。。。然而对于识别体统来说,它就是一个异类,那么这个异类这么个不一样了?我们还得剥茧抽丝,从语音,从属性提取来说起,本文重新分析思考MFCC的核心,Mel是干啥滴,在DNN时代还没过时吗?以及是否原创 2020-05-20 16:45:38 · 791 阅读 · 0 评论 -
CNN卷积神经网络是怎么衔接到全连接dense层的。
CNN卷积神经网络是怎么衔接到全连接dense层的欢迎使用Markdown编辑器2维卷积中采用和feature maps尺寸一样的卷积核1维卷积在输入数据维度确定时的一种方法1维卷积在输入数据时间维度不确定时的一种方法2维卷积在输入数据时间维度不确定时的一种方法欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编...原创 2019-12-27 18:17:37 · 5593 阅读 · 2 评论 -
神经网络优化学习思考
神经网络优化学习思考本文记录学习过程的一些思考,整体前后逻辑性不是很连贯。神经网络的主要工作可以总结为优化,而整个优化过程大致如下流程(手懒,直接上照骗了):超参数网络的层数,权重个数,偏置个数以及初始化值,卷积核的大小和层数,学习率等等。为什么分三个集合评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练模型,在验证数据上评估模型。一旦找到了最佳参数,就在...原创 2019-11-25 18:02:01 · 280 阅读 · 0 评论 -
tensorflow mini batch 训练中线程和队列数据输入的问题
tensorflow mini batch 训练中线程和队列数据输入的问题实际学习和使用tensorflow的时候,面临大数据量训练的场景,几乎很少使用Session.run中的feed_dict来批量导入数据。tensorflow利用多线程和队列方法异步实现大批量数据的输入,大大节省了数据输入引起的资源浪费。大致的流程如下:先创建一个“先入先出”的队列(FIFOQueue)创建enque...原创 2019-11-14 18:38:49 · 266 阅读 · 0 评论 -
用于分析tensorflow 网络图的工具对比介绍
用于分析tensorflow 网络图的工具对比在利用tensorflow & keras学习神经网络的过程中,能够利用图形化工具来了解和分析你所设计的网络是非常有意义的,本文结合学习过程,简单介绍记录一下:tensorboard GRAPHS这个市tensorflow自己的图形化工具,在Chrome浏览器里察看网络图,基本的样子如图这个工具的好处是可以随意拖拽,点击具体的网络节点,...原创 2019-11-02 12:52:28 · 282 阅读 · 0 评论 -
wav2letter++ 第一次training 日志
第一次训练w2l,遇到了一些软件依赖的问题。记录一下,以备后查。在wav2letter和libsndfile之间的依赖问题上卡壳了很久,浪费了很多时间。原创 2019-10-01 13:18:17 · 1385 阅读 · 4 评论 -
语音特征提取学习笔记--对比kaldi、htk、w2l的语音提取过程。
任何模式识别系统的第一个问题都是选择什么样的特征作为系统的输入,与语音识别也不例外,为了准确地反映待测系统的特性,并且让识别系统本身容易处理和分类,语音专家经过了几十年的研究,各种各样的语音特性提取也被提出来,而在经典的GMM-HMM模型中,MFCC是绝对的C位。不过在KALDI和HTK软件中,除了MFCC,其实还提供了其他一些特性提取方法,其中就包括PLP和FilterBank。本文又加入了w2l,目前最流行的开源人工智能网络ASR工具集,横向比较中,了解和学习一下语音提取技术的特点和发展。原创 2019-09-26 11:05:15 · 3479 阅读 · 0 评论