2021年04月_Yang SiCheng

12月 11月 10月 09月 06月 05月 04月 03月 02月 01月

原创【NLP】文献翻译5——用自我监督的多任务学习学习特定模式的表征，用于多模态情感分析

Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis摘要1. 介绍2. 相关工作2.1 多模态情感分析2.2 Transformer and BERT2.3 多任务学习3. 方法论3.1 任务设定文献信息：标题：用自我监督的多任务学习学习特定模式的表征，用于多模态情感分析作者：Wenmeng Yu, Hua Xu, Z

2021-04-17 21:15:11 1723

原创【NLP】文献翻译4——CH-SIMS：中文多模态情感分析数据集与细粒度的模态注释

CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality摘要1. 介绍2. 相关工作2.1 多模态数据集2.2 多模态情感分析2.3 多任务学习3. CH-SIMS 数据集3.1 数据获取3.2 标注3.3 特征提取4. 多模式多任务学习框架4.1 单模态子网4.2 特征融合网络4.3 优化目标5. 实验5.1 基准5.2 实验的细节5.3 结果和讨论5.3.1 与

2021-04-17 14:41:56 11965 14

原创【语音信号处理】2语音信号实践——LSTM(hidden、output)、Attention、语音可视化

语音关于class torch.utils.data.Dataset官方文档，

2021-04-16 23:18:01 1520 3

原创【语音信号处理】1语音信号可视化——时域、频域、语谱图、MFCC详细思路与计算、差分

@TOC1. 数据获取数据集来自：中国科学院自动化所的CASIA汉语情感语料库——共包括四个专业最佳人，六种情绪生气（怒），高兴（高兴）），害怕（fear），悲伤（sad），其他（surprise）和中性（neutral），共9600句不同最佳。其中300句是相同文本的，也就是说对相同的文本赋以不同的情感来阅读，这些语料可以利用对比分析不同的情感状态下的声学和韵律表现；另外100句是不同文本的，这些文本从字面意思就可以修剪其情感归属，以便录音人更准确地表现出情感，但完整的CASIA数据集是收费的，

2021-04-14 15:11:06 13380 5

原创【PyTorch】12 生成对抗网络实战——用GAN生成动漫头像

一篇简书里有下载地址

2021-04-13 22:39:27 10385 14

原创【DL】6 GAN入门1——基本思想(Generator、Discriminator)、条件生成、无监督生成(直接转换、投射到公共空间)

GAN 11. Introduction of Generative Adversarial Network (GAN)1.1 GAN的基本思想1.2 GAN作为结构化学习1.3 Generator可以自己学习吗？1.4 鉴别器能生成吗？1.5 一点理论总结1. Introduction of Generative Adversarial Network (GAN)在无监督学习方面有哪些最新的和潜在的突破？在深度学习方面，最近有哪些潜在的突破？各种各样的GAN，GAN的种类实在太多了，英文字母太

2021-04-11 12:01:59 8556

原创【深度学习人类语言处理】3 语音转换——类别(特征分解、直接转换)、语音分离(评价指标、深度聚类、PIT、TaskNet)

Deep Learning for Human Ianguage Processing 31. 语音转换应用场景2. 语音转换类别2.1 成对的资料2.2 不成对的资料2.2.1 特征分解2.2.2 直接转换3.1. 语音转换应用场景什么是Voice Conversion(VC)：保存了什么？- 内容改变什么了？ - 许多不同的方面…说话人转换(Speaker)可见此[Nachmani, et al., INTERSPEECH’19]和此[Deng, et al., ICASSP’20]：

2021-04-09 17:52:57 2333 3

原创【深度学习人类语言处理】2 语音辨识2——HMM、深度学习实现细节、LM

@TOCHMM(Hidden Markov Model )十年前，没有Deep Learning的时候人们如何解决Tri-phone是Phoneme更细的划分，假设每个Tri-Phone由三个State组成：每个State产生两个Vec：每一个Sate会产生两个几率，一个是到下一个的Sate的几率，另一个是给定一个State产生一个Vec的可能性我们必须假设每一个Sate有一个固定的几率发出一个固定的声音，所以不能用一个Character而是用State来表示排放概率(Emission

2021-04-08 12:16:42 1138

原创【深度学习人类语言处理】1 课程介绍、语音辨识1——人类语言处理六种模型、Token、五种Seq2Seq Model(LAS、CTC、RNN-T、Neural Transducer、MoChA)

Deep Learning for Human Ianguage Processing1. DLHLP-Introduction1.1 概述1.2 六种模型与应用1.2.1 语音到文本1.2.2 文本到语音1.2.3 语音到语音1.2.4 语音到Class1.2.5 文本到文本1.2.6 文本到Class1.3 更多应用2. 语音辨识2.1 语音辨识的Token2.2 声学特征提取2.3 Listen, Attend, and Spell (LAS)2.3.1 Encoder2.3.2 Attention2

2021-04-06 21:09:53 1929 5

原创【NLP】14 ERNIE应用在语义匹配NLP任务——Paddlehub安装、BERT推广的使用、与Simnet_bow与Word2Vec效果比较

ernie语义匹配1. STS-B 数据集2. Word2Vec 效果3. ERNIE 基于paddlehub的语义匹配0-1预测3.1 数据3.2 paddlehub4. ERNIE 简单服务器调用5. ERNIE 预训练+微调1. STS-B 数据集Semantic Textual Similarity Benchmark: 这是一个类似回归的问题——给出一对句子, 使用1~5(0-5?)的评分评价两者在语义上的相似程度，来自比赛的Task 1: Semantic Textual Similarit

2021-04-03 22:40:27 1447 3

TA关注的人

YoungSeng's Blog