文章目录
O
Master Academic Research.
KR
-
Master research tools ,base knowlege about academition.
-
Some additional basic knowledge in your self research.
-
Uderstadning whole big research’s classial work.
-
Uderstanding self research’s area.
- Getting some classial research in your research area.
-
Personal summary .
- Mater some simple innvoation and difficult innvoation in research area.
- Master a clear route whcih can berak simple innvoation.
- Master other potential research or previous research field
-
Code summary .
-
Writing summary.
0. Master research tools ,base knowledge
文章名 | 传送地址 | 概述 |
---|---|---|
0. Master research tools ,base knowlege | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
0.0 design tools : PPT,Word or latex ,Vision and markdown | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
word | video tutorial:here!!! | 目前只有视频教程,还没有博客的教程 |
PPT | Blog: 研究生PPT汇报和制作技巧 | 1. Text slides can only contain the most important points, arguments, suggestions.2. Text content will reach 10%, pictures and charts will reach 90%. 3. We need to ready a pretty fluence story before on stage |
Markdown | markdown tutorials:markdown tutorials,markdown writing tools : typora | 介绍了typora和markdown如何使用 |
visio或者adobe | Blog: | ----------- |
latex | 1. latex installation:here!!!2. latex tutorial :blog: tutorial,video: tutorial | 介绍latex的安装和教程 |
latex debug | latex的两种引用方式, How to include a bibliography using bibtex | 调试过程 |
0.1 base knowledge such as article classification | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
basic knowledge about conference and journals | Blog: here | 里面包含了很多内容,只看前面部分就行了 |
IEEE会议查询 | here | IEEE会议的查询 |
在中国开的会议查询 | here | 大部分会议不是很好 |
查询期刊的分区 | this. | 经常会用到 |
SCI搜索库 | here | but I would recommend that you search computer journals article in EI or EV compendex because there have many engineer paper. |
SCIhub | sci hub | 可以免费下载sci论文 |
arxiv | arxiv | 查考最新的论文,还没来得及发表 |
paper with code | here!!! | ****含有代码的论文 |
中文论文免费下载idata | downloading a chinese paper in here | 中文论文下载 |
根据内容推荐投稿EI期刊 | Blog:here | *根据内容推荐投稿EI期刊 |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
0.2 Master pipeline research and skill tools | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
zotero | Official website:here!! | Zotero is a personal research assistant. You can manage your research paper, even work or life by Zotero. |
kaggle | here!!! | We can find some relevant competition and read exellent code about feature engineer, model development, ideas. |
deepl | here!!! | tanslate chinese word to academic sentences |
wangyicloud | Blog: | translate English word. |
google translator. | here | tanslate chinese to English |
garmmarly | garmmarly | d |
quilbot | quilbot | rewrite sentence. make your snetense more short , and easy to understand .It aslo can change word by yourself |
home for research | home for research : | find suit sentense and suggest your paper summit journal |
Useful Phrases and Sentences for Academic & Research Paper Writing | Useful Phrases and Sentences for Academic & Research Paper Writing | Change sentense to another style |
写作猫 | Blog: | cheak Chinese grammar and word error. |
dataset: | you can find data in kaggle or chinese dataset | 数据集下载地址 |
feature vision | keras tool | 特征可视化 |
math2pix | :mathpix Snip | allows you to extract formulas from images, convert them to latex format, and insert them into Word. |
svg2eps | Blog: svg2eps | 转换成latex格式图片 |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
0.3 基本的理论和代码知识 | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
装机基本知识 | Blog : 深度学习平台搭建教程,TF GPU基准测试: 2080 Ti vs V100 vs 1080 Ti vs Titan V | studying basic konwledge about computer hardware |
线性代数和微积分有什么用? | 知乎视频 | 视频表达的知识体系: |
machine learning basic math | blog: 机器学习数学基础, bilibli:机器学习数学基础视频 | 讲解了机器学习的数学基础 |
machine learning outlook | other blog: 机器学习轮廓,bilibli:机器学习介绍 | 给出机器学习的整体轮廓 |
Regression and Clustering in machine learning | bilibli:机器学习回归和聚类入门 | 给出机器学习中回归和聚类的常用算法介绍 |
classificiton in machine learning | bilibli:机器学习分类算法入门 | 给出机器学习中分类常用算法介绍: K 邻近, 朴素贝叶斯,决策树等 |
Introduction to deep learning | bilibili:机器学习和深度学习轮廓导读, Other blog: 深度学习轮廓 | 给出深度学习的整体轮廓 |
Using opencv and tensorflow1.0 | Blog:opencv与tensorflow入门 | 介绍如何使用1.0 的tensorflow, 但是这部分内容达不到复习水平。 |
Using tensorflow 2.0 | blog:tensorflow2.0学习之前需要的基础知识, tensorflow2.0概述, tf2.0基本使用, tf.keras的基本用法 | 讲了tf2.0 的使用, 值得复习。 |
Competition experiences(EDA and training network ) | train networks experiences: here!!, baby crying competition!!! bilibili:here!!! | 介绍如何去做深度学习比赛。可视化代码可以参照 demo |
some key in machine learning | blog: 深度学习的关键点理解 | 介绍了深度学习的一些关键点, 在关键点上通俗易懂,而且给出了深度学习的本质分析 |
some key in machine learning | attention 注意力机制讲解: here | 介绍了attention,让我明白了attention是什么. |
1. Basic knowledge in self research
1. Basic knowledge in self research | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
音频基础知识 | Blog : 梅尔语音特征的提取过程,Video: | 梅尔语音特征的提取过程,很详细 |
视频基础知识 | Blog : audio and video basely knowledge,Video: | waiting add |
声音端点监测工作原理 | Blog: VAD | 端点监测工作原理 |
audio 的波形和频谱的区别 | Blog:区别 | 首先,波形是由各频率不同幅值和相位的简单正弦波复合叠加得到的。 |
MFCC和语谱图的关系是什么? | Blog:here | mel spectrogram is fbank. MFCC has a DCT that fbank. |
语音特征小结 | Blog:here | 总结了所有特征 |
d | Blog: | d |
2. Uderstanding classic work in deep learning
2. Uderstanding classic work in deep learning | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
2.0 How to start and maintain research | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
How to start and maintain research | here!!! | ***How to start research effectively and maintain self-research state of the art. |
吴恩达introduce how to start research and read paper | Blog:How to read paper and start research | **It worth to noticed that how to read paper and 50 papers represent your self has a SOTA level in your area. |
如何降低自己现在不平稳的科研心态 | Blog: 没有的,自己的感悟 | ****因为我自身安全感比较低的原因,我自己做科研的过程中总有一种吃不饱的感觉。 stay hungry。 这个现象有好有坏。 好处就是自己可能一直会进入学习状态,一直进步。但是坏处也很明显,对自己没有一个清楚的认识,反而会让自己走弯路,对方向和位置判断不准确。 这也研究那也研究,进入一个迷宫中。 因此在这我想表达的是, 目前我们在做的这个深度学习其实和之前的研究是有间隔的。 深度学习从15年爆发到现在也只是经历了四五年, 虽然加上12-15年之间的研究,其实发展的并不快, 更不用说之前的论文了, 之前的论文基本是在svm和决策树上做文章,目前深度学习已经碾压之前的工作了。 因此目前来说自己只需要关注一两个12年之前的工作, 关注12年到15年的一些基本方法(其实大部分都被写到先在的入门书籍和教程了)。重点关注十几篇15年之后自己小领域的工作, 就完全可以入门了, 如果到50篇那你就是这个领域的前沿研究人员。 这不是危言耸听,这是因为这个领域本来就发展的时间比较短。 因此不要觉得自己这个领域很大, 看也看不完, 更别说写论文了。如果遇到一些看不懂的方法,很有可能它使用了其他领域的知识,并不是主流的方法,如果不是其他领域已经提出来的, 而且论文比较好的话,那么其实这份工作已经就是这个领域的SOTA, SOTA方法具有知识范围广是很常见的,因为一个领域的sota就那么多, 每个sota如果使用方法差别不大的话, 它很难发到好的期刊中,好的期刊需要新颖有效的方法。 因此没有必要每个SOTA都搞得很细, 当你了解之前的非深度学习方法之后,接触了基本的方法和掌握现在主流算法之后,再读懂两三篇别人的SOTA方法, 就可以去其他领域查找idea或者直接做实验来写自己的方法了, SOTA方法由于范围太广,不值得一般科研人员去追, 因为追的时候很容易就不知道自己在哪里了, 迷失了自我。 你知道掌握好基础的, 主流的, 就去做自己的SOTA吧。(这里思路是我总结的,但是其实和台湾清华那个老师的思路是差不多的, 稍有偏差, 那个老师的意思是你得找到所有SOTA并选择一两个主流领域的多个sota,但是不要去追每个SOTA,因为人家做了很长时间的工作,想要突破是很难的,甚至找个问题也是很难的。论文找全是为了防止答辩审稿时被专家怼, 但是对比是你自己做的,可以只选择个别sota,找好理由就行。例如他们这个效果虽然好,但是我这个领域他不适用。 ) |
复现别人论文的时候需要注意的事情 | Blog:here | *** 一百篇文章一百个SOTA。 每年三大顶会能复现出来的有一半就不错.顶刊顶会大公司也不一定可靠。 有效的也许不是方法,而是trick。 12,13年那会,做理论分析的文章。虽然效果不好,但是有理有据,而且很多那时候的传统模型,结合现在的深度学习往往能爆发出强大的力量。 不要盲目的去追求SOTA,那些高大上的结构,网络,因为很多时候并不是有用。更重要的是看文章的核心思想。 |
台湾清华彭明辉教授的研究生手册读书笔记 | Blog:here | **** 本书是台湾清华大学彭明辉教授写给自己的学生的科研与学习手册,本书短短十八页,将科研及研究生阶段学习的重点及方法表达地清晰透彻。对研究生的阅读,学习,科研,人生规划都有很有帮助。 自己专门做了一个读书笔记在here.而且文中提出找创新的方法可以说是已经系统化了, 以后不管工作还是发论文,使用这个套路就能走出来创新,非常有帮助。 |
Converting deep learning research papers to useful code | Blog: here | **作者讲了如何复现论文,并给出了一个demo。在我看来经典工作如果不是非常热门的方向话,实现四五篇就够了。 |
博士四年的工作总结 | Blog:here | ** 这个老哥分享了自己四年的科研经历,适合刚入门或者在科研过程中有困难的人阅读。 重点有以下几个:1.和老师汇报尽量汇报全,因为导师很忙,一些他没有关注到的东西你没汇报可能会觉得你在偷懒, 实际自己很委屈。工作中也是一样,很多领导都不懂你做的工作,只看具体的效果和你口头/文笔的表述。 2. 不同的对象制作出来的ppt是不同的,针对专业的人汇报技术细节,不专业的人还要多介绍一下背景。 3. 听众情感随着时间的变化,有三个高潮:问题是什么, 这个问题要面对哪些挑战, 介绍第一份工作,大家又疲劳了,这时候指出来,即使有这个work 1,问题还不能被解决,因为有remaining challenge;接着大家又被调动了兴致,可以开始介绍work 2。3. 写paper是有模板的,而且注意讲故事的能力(建议提前把文章做成ppt给身边人讲一遍),并且在方法中注意讲清楚原理,为什么要这样做而不是做没有分析的技术细节报告。 4. Project vs. Paper怎么抉择,很多博士期间的项目是很难发论文的,或者很多时候都在做非学术的东西,而且必须要做。 这时候需要注意尽量focus在模型本身,找到有novelty,在project benchmark和学术界standard benchmark上效果都好的方法。或者先做基础的工程,把能搞学术的地方封装成一个可以迭代的方法。 5. 文献一个星期可以看完经典从而入门,paper一个星期可以有个初稿,idea实现起来一个星期可以coding完(外加试错),甚至跑出实验结果……其实没那么难,就是耐下性子,脚踏实地,干就完了。 |
d | Blog: | d |
d | Blog: | d |
2.1 paper | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
深度学习综述 | Blog:deep learning | **深度学习之父写的综述 |
RseNet | Blog: ResNet | 何凯明大作,深度学习引用率最高的几个论文之一,有代码 |
3DCNN | Blog: 3DCNN | 三维卷积网络,视觉时间序列开山之作。 有代码 |
XGBoost: A Scalable Tree Boosting System | Blog:知乎解读 | **还有个视频讲解的非常好。如果看不懂文章可以直接去看这个视频xgboot的讲解 |
d | Blog: | d |
d | Blog: | d |
2.2 blog and others | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
深度学习CV领域最瞩目的top成果总结 | Blog:cv所有top成果 | ****所有领域跨时代的成果汇总,自己相关的领域可以好好看看,感觉目前还差cam,loss知识,如果用到gan的话再去看gan,分类骨架自己已经有源码了。:Relu,Dropout,Adam,BN,AtrousConv,DCN系列…分类骨架:VGG,ResNet(系列),SeNet,NIN,Inception系列,MobileNet系列,ShuffleNet系列…生成对抗:GAN,CGAN,DCGAN,pix2pix,CycleGAN,W-GAN…loss 相关:Focalloss,IOUloss系列,diceloss, CTCloss…部署加速:tf int8,network-slimming,KD…其他方面:CAM,Grad-CAM,Soft-NMS,CRNN,DBNet |
计算机视觉四大任务:分类、定位、检测、分割 | Blog:link | * 计算机视觉的入门介绍。 |
attention machine讲解 | Blog:attention | *介绍了几种注意力机制原理,整体来说还是不够浅显。但是作者给出了自己的看法:只要你能熟练的掌握加法、乘法、并行、串行四大法则,外加知道一点基本矩阵运算规则(如:HW * WH = HH)和sigmoid/softmax操作,那么你就能随意的生成很多种注意力机制 |
2020cvpr论文开源项目合集 | 2020cvpr | **包含了各个领域的论文和代码。 |
深度学习领域有哪些值得追踪的前沿研究? | 时至今日,深度学习领域有哪些值得追踪的前沿研究 | * 看一看就行了,自己目前方向已经定了,就是了解一下其他领域需要解决的问题, 看看自己目前手头的工作能不能和他们沾边。 目前我发现自己的PID思路对这个文中说的迁移学习有很好的相关性。 |
注意力机制怎么找创新? | Blog:here | ** 只要你能熟练的掌握加法、乘法、并行、串行四大法则,外加知道一点基本矩阵运算规则(如:HW * WH = HH)和sigmoid/softmax操作,那么你就能随意的生成很多种注意力机制 |
如何去改loss | Blog:here | ***Loss function的设计准则最根本的就是:尽可能直接体现模型的最终目标。 |
从零基础开始想发一篇深度学习的论文要提前准备什么?写论文的周期大概多久? | Blog:here | ** 回答十分扎心,把坑都说了。 |
算法工程师每天的工作 | Blog:here | ** 主要还是清洗数据,看论文,构建业务模型。 最重要容易摸鱼,成长速度太慢了(如果没有大佬的话) |
d | Blog: | d |
` | ||
` | ||
` |
3. Uderstanding self research’s area
3. Uderstanding self research’s area | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
3.1 paper | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
3.1.1 audiovisual | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
Multimodal Machine Learning: A Survey and Taxonomy | Blog: csdn解读,另一个解读更为深刻:csdn解读 | **** csdn的解读,自己之前看了一遍忘记做笔记了。毕竟这篇综述是大牛的开山之作。目前作者认为多模态融合和语音识别是比较老的研究了,而且视觉经常是在语音噪声过大的时候起补充作用,当语音环境好的时候加视觉其实没什么大的提升。这让自己对这个领域有了更清楚的认识。而且最近听了一个讲座分享后明白原来理解----生成—交互是整个深度学习的发展方向,而之前的融合以及识别应用是属于理解范围,translate and aligment 属于生成。目前大部分研究还在生成, 研究后期会进入交互领域。 |
d | Blog: | d |
d | Blog: | d |
面向深度学习的多模态融合技术研究综述 | here | *** 2020出来的中文综述,作者在知乎的解读 |
Deep Audio-Visual learning: A Survey | Blog: Deep Audio-Visual learning: A Survey | **** 音视频的第一篇综述,由于多模态主流是text and video , 所以需要站在音视频融合综述的角度下去看待自己领域的问题。 |
Deep multimodal learning: A survey on recent advances and trends | Blog:知乎解读: Deep multimodal learning: A survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108. | * 没怎么看这篇综述,解读挺短的 |
Multimodal intelligence: Representation learning, information fusion, and applications | Blog: 知乎简答解读,第二份解读:csdn解读 | ****专门针对融合和表示的综述。第二篇解读作者还附带了自己的看法,更容易理解现在融合策略大都是中期融合,所以一些注意力机制和双线性方法经常使用。 |
多模态学习方法综述 | 知乎解读: 多模态学习方法综述[J/OL].工程科学学报 | *** 2020出来的中文综述,感觉需要和之前那篇结合起来看 |
Audiovisual Fusion: Challenges and New Approaches | Blog: 音视频融合综述 | **2015年的综述,价值感觉一般,主要在介绍机器学习方法 |
基于音视频特征融合的暴力镜头识别方法研究(硕士论文) | Blog: 基于音视频特征融合的暴力镜头识别方法研究 | 最近恶补了音视频融合的方法。国内的论文最后扫19年的硕士毕业论文“基于音视频特征融合的暴力镜头识别方法研究”,国外的还要继续读,差不多再读两篇经典的工作就可以写个小点的综述,然后继续修改自己的论文了。 |
A Review of Audio-Visual Fusion with Machine Learning | 没有笔记 | ****这篇综述总结音视频融合一些主要方法。分析情感识别、媒体事件监测、语音识别等领域,之前大牛综述说融合如果不依赖模型的话分为早期、中期、晚期。固定模型的话分为图,多核线性,神经网络。 前者强调策略,后者强调方法。 这篇文章分析了早期融合中的历程,介绍了一个经典的多模态注意力机制网络论文Modality attention for end-to-end audio-visual speech recognition是目前sota的方法,利用注意力机制去调整模态权重。 |
Modality attention for end-to-end audio-visual speech recognition | Blog: | |
自动调节权重大小的多模态融合网络设计 | Blog: 作者share,中文解读:shared | *一个可以自动调节权重大小的多模态融合网络。作者没有公开自己的论文,估计是怕复现不了吧,但是思路还是可以看看的。 |
音视频融合检测暴力事件(光学工程) | Blog: 音视频融合检测暴力事件中文核心 | **多任务方式给我启发不少 |
d | Blog: | d |
3.1.2 emotion recognition | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
Investigation of Multimodal Features, Classifiers and Fusion Methods for Emotion Recognition | 中文翻译:translation | 目前只有个中文翻译,但是其实还是值得去自己读一遍的,现在感觉直接读英文的反而更有感觉。 |
End-to-End Multimodal Emotion Recognition using Deep Neural Networks | Blog:暂无 | End-to-End Multimodal Emotion Recognition using Deep Neural Networks(17年一区,有代码, 这一篇文章是多模态情感识别开山之作,工作量很大) |
音视频多模态情感识别(计算机工程与应用) | Blog: 音视频多模态情感识别 | **没什么创新上的启发,但是这是我看的第一篇音视频融合论文。 |
基于深度学习的多模态情感识别研究 | Blog:here | *** 这个人应该是国内音视频情感识别follow到最前沿的的学生,而且他的导师就是这个领域的有名学者。 知乎上还有他的分析。 |
Multimodal Speech Emotion Recognition and Ambiguity Resolution | Blog:here | 这是一篇综合性的论文, 作者通过音频和文本验证了ensemble的 作用。从单模态60多提升到72% |
Multimodal Transformer for Unaligned Multimodal Language Sequences | Blog: here | 包含了三种模态,不过不影响。 这里有中文的解读。 再加上自己的笔记。 看懂没问题。here is zhihu |
中国人民大学情感识别小组的工作总结 | Blog:here | *** 看一看这种成熟的小组在做什么工作。 从情感识别的单维度到时序维度。 时序维度中作者除了做基本的早期融合和晚期融合,还做了一些动态融合。 最后作者介绍了情感识别中的交互情感和跨文化这些比较难得研究工作。 |
多模态情感识别的paper with code | Blog:paper with code | ** 里面有很多相关的资料。 |
Emotion Recognition in Audio and Video Using Deep Neural Networks | Blog:code | ** 这篇论文是有代码的,介绍了使用简单融合加contractive loss如何去做。 也是很适合在此基础上做自己的工作。 比如他的融合就比较简单。不能抵挡太多噪声。 |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
**3.1.3 single-audio ** | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
Deep Learning for Audio Signal Processing | Blog:csdn解读 | **** 这个文章讲解的非常清楚,而且作者本身自己的博客中有很多音频的代码demo,后面需要去他的博客中看看。 |
ESResNet: Environmental Sound Classification Based on Visual Domain Models | Blog: | **作者实验感觉也没做啥,实验部分部分就做了四个实验,而且方法创新一般,只是强调如何将视觉sota方法应用到speech event中。但是总结的倒是挺好的,作者公开了代码,并且针对之前别人代码无法复现的问题给出了自己的解释,感觉作者写的还很生动。 最后这篇论文是发表到了一个ICPR,一个c类,但是目前来看自己的论文从行文上距离投稿还是有一定差距的。现在希望好好积累写法和常用模板吧,还有要抓住一个关键点。 |
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition | Blog:here | ***音频数据增强方法解读 |
d | Blog: | d |
d | Blog: | d |
3.2.1 audiovisual blog and others | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
多模态领域论文汇总 | Blog:Mostly awesome multi-modal classification | *****行业领头羊MIT多模态研究团队发布的,但是多模态主要趋势还是文本和视觉,音视频是小领域。 |
CMU university MMML course | Blog: 2020 fall tutorail and 2019 fall tutorail | **** 研究生课程,有论文任务,视频讲解,ppt。缺点就是范围太大了,而且主要关注文本和图像 |
腾讯实验室对多模态领域分析 | Blog: Multidoal | ****国内最顶级的企业团队腾讯在2020年从上到下的分析了当前多模态的工作。 并且给出了基本框架, 并希望后面的研究人员基于这个框架去做可迭代的研究。 |
视频理解领域分析 | Blog: 点击这里 | **知乎里面一篇关于视频理解的文章,详细介绍了视频理解中的分类研究和工作现状,之后讲述其他工作:动作时序定位,异常检测,视频摘要与视频浓缩,看视频说话,第一视角视频,视频生成,目标跟踪,最后说了一下今后的比较有价值的研究方向,其中视频=图像+音频。视频是一种多模态的数据形式,能否利用音频信息辅助视频分析呢。Aytar等人在NIPS’16的工作中利用图像辅助音频分析,和我的方向差不多,值得关注。 |
d多模态融合和特征表示的总结 | Blog:here | *** 其中有一句话挺重要: 多模态融合和表征有着明显的联系,如果一个过程是专注于使用某种架构来整合不同单模态的表征,那么就被归类于fusion类。 |
d多模态里面的研究领域入门介绍 | Blog: Here | *** 中文介绍的更容易理解一些,实际上也是参考综述论文的内容 |
视频分析领域数据集文章教程汇总 | Blog: 视频分析 | * 简单参考一下吧,在视频角度去考虑,感觉用处不大 |
多模态融合能做点的一些点讨论 | Blog: CV方向多模态融合有哪些好的paper? | ** 一些作者分享了自己的工作 |
多模态检索解读 | Blog: here | *文本和视觉, 音频和人脸的没有,但是可以借鉴,毕竟音频和人脸发展没有text and visual 的好。 |
多模态融合的所有方法解读 | Blog: here | ***全面分析了,但是理解和大牛有偏差 |
音视频领域工作分析与评价 | Blog: 结合声音和视觉的相关研究 | ****列出了可以做的几个方向进展,并给出个人的进展评价 |
audio-visual部分论文list及感想 | Blog:思考 | ** 这个talk整理了目前audiovisual的工作有哪些,这个方向做的比较多的有两类,一类是Separation&Localization,另一类是合成(根据声音合成视觉或者根绝视觉合成声音的都有)。其实到这可以发现自己专注音视频融合的话是有点偏离方向的, 因为音视频领域主要任务在上面, 融合和识别还是被多模态整个大领域带着走, 因此要是直说自己做音视频那么主要是指前面两类工作。 要说音视频融合其实还是在做多模态领域的工作。 |
一个很有价值的音视频领域talk | Blog:音视频领域大牛的talk | **** 这个作者之前也和他聊过,这个领域的第一梯队的科研小牛。 他从自己的几个工作出发总结了音视频领域工作未来方向。 其中给我感受最深是作者提到了解决音视频同步问题的一个方法。使用随机生成的一些非同步数据让网络去学习。 而且作者自己在论文工作中也主要是用contact, 也说注意力机制会更好一些。 说明我目前的进展已经follow到前沿了。 |
多模态领域的SDK | Blog:cmu多模态的SDK | *** 作者好像不维护了,但是里面还有一些代码是很有价值的,可以参考。尤其是作者总结了各种融合机制的代码,这是不可多得的资料。 |
深度学习和机器视觉top组都在研究什么? | Blog:here | * 作者说目前大牛组主要在研究自监督学习,多模态,强化学习和3D分析。 其中多模态主流是text-vision, 然后是audio-visual , 但是audiovisual 与主流不同的是它可以针对一些特殊问题来处理,而且这些问题很多是近几年冒出来的。 因此还能定义的问题很多。 然后还可以用audio-visual做一些应用,例如audio2face 2talking。 给出了一个大牛William Freeman喜欢做音视频, 之前的cmu是爱做text-vision. |
d | Blog: | d |
3.2.2 emotion blog and others | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
Multimodal-Emotion-Recognition | Blog:multimodal fusion | ****多模态融合情感识别github中一个教科书版的基础工作,非常适合自己工作的迭代 |
语音情感识别的报告和代码 | Blog: here | ***这也是多模态情感识别中一个可以迭代的工作,有人把自己的课程内容分享出来。 |
国内知名语音实验室名单 | Blog: 语音实验室 | *看一看,了解一下分布。 其实语音这一块国内要比国外研究的更活跃,成果也非常多。 |
基于CNN+MFCC的语音情感识别 | Blog: 添加链接描述 | *一个基础的代码分享,可以借鉴一下 |
多模态情感分析的一个talk | Blog:here | **多模态情感分析简述,从多模态的角度分析了,写的挺好的。 |
情感识别数据集选择哪一个? | Blog: | *总体来看,情感识别是分为语音,图像或者纯视频, 多模态三种数据集。目前图像方面可以参照 here,比较注明的有free2013,大型的有affectnet。语音方面的话就IEMOCAP和RAVDESS。 音视频数据集有IEMOCAP和RAVDESS。另外还有些其他多模态的数据集。 注意这边IEMOCAP和RAVDESS两个公开数据集都有相关的比赛:一个是kaggle的,另外一个在paper with code 也就是论文中经常使用, 主要是因为它每年都有会议和比赛去支持它继续搞下去。 |
语音情感识别demo代码 | Blog:kaggle | *** 介绍了语音识别情感的所有基本工作。 |
音视频情感识别代码 | Blog:code | ** 代码使用不是很方便,需要自己去找。 但是给出了avf融合对齐相关论文实现 |
音视频语音识别的项目代码 | Blog:here | ** 可复现性不高,但是值得参考。 |
多模态情感识别的调查 | Blog:here | **** 包含了这个领域的 数据, 比赛,项目或者代码,论文分类。 |
音视频融合情感识别的代码 | Blog:code | *** 项目是基于ravss 这个数据集做的,而且融合工作做的并不多。但是自己写的代码还是非常多的。 很适合在这基础上做自己的工作。 |
d | Blog: | d |
3.2.3 single-audio | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
声音数据集查找和下载地址 | Blog: 数据集 | 声音数据集查找和下载地址 |
声音识别一些开源代码的教程 | Blog:here | *** 值得一看,里面的代码可以借鉴一下。对声音进行处理的代码挺全的。 |
语音信号处理试验教程代码 | Blog:here | ***《语音信号处理试验教程》(梁瑞宇等)的代码主要是Matlab实现的,现在Python比较热门,所以把这个项目大部分内容写成了Python实现,大部分是手动写的。 |
国内做音频的大牛 | Blog:here | ** 翻到他带的研究生的硕士论文(基于深度学习的多模态情感识别研究,张园园)之后去找了一下老师的信息,发现是做音频的大牛, 科大讯飞的。 感觉可以好好看看这个老师的工作。看了,发现做的比较多。 |
Blog: | d | |
d | Blog: | d |
4. personal summary
4. personal summary | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
2020年个人方向总结 | Blog:Personal direction summary | 总结今年的工作 |
潜在研究点分析 | Blog: 音视频相关的10个研究点分析 | 总结音视频几个应用领域的论文 |
2020换方向 | Blog: 2020年最终研究方向的调研 | 调研了有研究过的,或者没有研究过的之后确定做语音判断说话的人。 |
怎么找创新点 | Blog:发不出来论文是怎么回事, 台大老师找创新的教程 | ****现有独立的有A问题和A数据集,B文章里的B方法,C文章里的C方法,可不可以用B方法+C方法改动一点点来解决A问题?ML的人很惯常这么做,不然Bert不会这么多文章。(重点参照台大老师的方法,此外融合时候需要做一些适配,而且还要做出足够工作量的适配,不能让人家觉得你只是简单的融合一下,要让人家觉得没你这个适配工作,简单适配根本不行。前期需要强调一下有多需要这种创新,衬托一下自己创新的重要性。这也是写故事的方法。) |
audio and face retrival | Blog: speaker identitify | ***说话人识别工作的总结 |
2020年初期多模态阶段性创新总结 | Blog:多模态阶段性创新总结 | (自己论文加loss,加lstm激活分析,加光流,用不到的内容全删了。) |
自己想的创新点 | Blog: | 1. PID算法调节注意力机制,在音频中估计效果更好。2. 动态多模态网络, 或者对多模态网络进行剪枝操作。3.VAD动态设置音视频权重。 4. 加随机非同步样本进去学习。 5 . 注意力机制能够让一些经验值做自动的调整。可以从这个口入手发论文。6.注意力模型还有研究的空间。空间(方向)注意力,通道注意力,时频注意力等等还有研究空间。目前的研究很多是直接拿图像和自然语言处理的机制来用,但如何更好融入听觉模型模仿耳蜗机制还需要深入探讨。5. 注意力机制去设置vad的值。 或者小样本中注意力机制并不可靠,通过vad去辅助注意力机制在小样本中表现良好。 6. 通过添加contrastive loss 让子网络特征提取效果更好,不同类分散,同类比较聚集。 |
previous work基于边缘计算的视觉感知研究 | Blog: 基于边缘计算的视觉感知研究 | 基于边缘计算的视觉感知研究的总结 |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
5. Code summary
5. Code summary | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
d | Blog: | d |
5.1 function | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
– | – | – |
audio augment | Blog:notebook | audio augment |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
5.2 network and paper | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
3DCNN | –github | 3DCNN的实现 |
soft noise network | notebook | 代码实现,效果好像不太行 |
Classification models Zoo - Keras (and TensorFlow Keras) | Blog:keras所有分类模型代码 | ****This library can use all high level classification network by keras. |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
6. wriiting paper summary
6. wriiting summary | ++++++++++++++++++++++++++++ | ++++++++++++++++++++++++++++++++++++++++++ |
---|---|---|
writing template | here!!! | 1. writing academic papers routes and template. |
peer review template. | here!!! | |
paper review templeate | here!!! | ***看论文的时候如果掌握一篇论文的思想还需要看公式,那就很不合理了。 审稿人会让你浪费人家时间到公式部分才把你想表达的内容才表达出来么?甚至审稿人方法都不想看。 |
对同学论文的审阅 | Seam Carving***** peer review | d |
第1篇论文的流程 | baby cry dection peer review suggestiones summary | **通过这次写作自己掌握了从0 开始完成一篇论文的基本流程, 也明白什么语法是好的语法,什么不适合,但是写故事和突出创新的能力还没得到锻炼。一些比较好的表达方式还需要积累。 |
第2篇论文的流程 | this baby crying work : baby crying basic knowlege Add some detail in this execl :审稿意见汇总 | 3 第二篇文章开始注重积累一些好的句子格式和表达方法了,但还需要继续积累。这次明显速度快不少,但是写的时候还是会产生一些仍然出现的问题, 最明显的问题就是学术态度问题, 一些图表不够清晰。 此外一些表达方式不好, 对问题的描述不够详细,也就是讲故事的能力和抓主要创新的能力不行。 其实介绍和相关工作是有套路的, 但是方法实验和结论是没有固定结构的,合理表达就行。 最后自己在文章方法和结果时候出现大范围重复意思的内容,这也是故事没讲好的体现, 一个东西或者创新重复说了很多次, 需要学会用不同的表达方式,或者以不同的角度去解释创新。下一篇我得认真积累前两部分的好结构和讲故事能力。 然后实验设计合理一些,多一些。 方法中图的表达力和紧扣创新的能力 也需要积累。 而且相关工作调查不够,感觉每次写的没有说服力,参考文献才是最需要表达自己想法的地方。 |
论文需要注意注意哪些地方 | Blog:How to add creative and 第一次写论文要注意什么 and video | 5 观点1. 图标要多,显得充实。 而且审稿人也不会乏味。 框架图一定要简单明了,让别人一眼看懂你的工作,get到你的创新。 观点2.:组合现在存在的网络结构, 加入注意力机制或者某些特定的改进。 画图时候多些图标(混淆举证,损失曲线,结果可视化或者特征可视化)。 观点3: 写论文的时候可以两篇同时写,因为一篇修改一般要等你过一周忘记差不多才行, 因此如果两篇同时写,这样可以进行思维切换,不会陷入局部认知。 而且同时写一个部分相当于做整批的训练,而不是一遍一遍的训练, 这对于吸收和输出都是有好处的。(这部分来自一个大牛师兄)。 观点4.对于融合其他方法的创新的应用创新,要让你的融合部分做一些适配,而且还要做出足够工作量的适配,不能让人家觉得你只是简单的融合一下,要让人家觉得没你这个适配工作,简单适配根本不行(实际还是需要小小的创新或者大的工作量)或者强调你的创新为什么没人想到的原因。前期需要强调一下有多需要这种创新,衬托一下自己创新的重要性,而且说自己的创新时候还要通过一些证据来论文你这个创新是可行的(最好是可以理论推导的,如果别人的工作或者正常经验直接来论证也行)这也是写故事的方法。 观点5 :写作中, 摘要中不加入个人对研究结果的主观评价。introduction中应重点阐述论文的研究意义和研究对象的必要性、以及对现有研究的继承性和创新性, 并简单描述一下方法细节(注意这些细节简单点,写太多你后面到具体方法中再重复一遍不是很啰嗦。)研究方法/算法/模型一定要有理有据、切实空洞、无支撑。重点叙述自己的工作,别人的工作不要长篇叙述。实验结果中要让实验细节能够做到可重复, 结果分析有理有据。图标体现自己的工作量还有明确的信息。**观点6. **writing when you have a idea which is not good enough. You will know the better idea when you wirting. The final idea alway not your init idea. 观点7: You must have one key idea. if you have lots of ideas, write lots of papers. Key ideal also need a small and meaning question . Too many idea will make your paper is not clear for reviewer to judge your work. (one idea not totally equal one create) **观点8:**You may not know exactly what is your key idea, but you must know when you finish. (I am very support it) 观点9: related work 中由于计算机领域评价标准有很多, 很难有一种方法在所有方面都好。 当你说你的方法在哪里好,在哪里好时候,很容易出现审稿人说你这个方法在b领域不好,因此要提前说一下自己的不足,给出比较好的方法。 这可以避免diss 。而且避免长篇叙述别人工作做了什么,重要的是如何根据之前工作验证自己提出的创新是可行的。固定 观点10: method当遇到一些重要的点时候或者比较绕的点的时候要加上一些论证或者详细的描述或者自己怎么思考的。 **观点10:**如果在前面描述问题时候能够给一个例子,就可以让读者产生好奇心,想知道你怎么解决了这个问题。 一些cv领域的人将图片效果放在最开头也是这个心理。观点11: 很多时候不是英文问题,而是自己写作逻辑问题,一些英文没表达出来的问题估计中文意思表达的也是有问题。 观点11: Rationale很重要。不光是要讲清楚你怎么做的,更要justify你问什么这么做;不光要讲你的结果比baseline好,更要解释为什么好;读者看到的不应是一个“使用手册”。有时候我们写paper,花了很多篇幅写了很多实现细节,但是更重要的是,解释“为什么”,这个背后的逻辑和insights。自己在很多时候太过于专注细节了,更重要的是讲清楚你的motivation 和为什么这样设计的理论依据,一些和主要创新没关系的内容可以快速过去。 |
大论文的写作记录 | here | d |
如何判断自己文章的水平高低? | Blog:几个好文章的标准 | 作者:Showthem 链接:https://zhuanlan.zhihu.com/p/338191470 *** 满足以上这几个点, 就是好文章。 确实目前发现好的文章不仅有充足且合理的对比实验,还有对应的理论证明。 |
消融实验是什么? | Blog:消融实验 | *可以参照Rich feature hierarchies for accurate object detection and semantic segmentation里面消融实验的写法。 |
审稿人怎么看稿子 | Blog:会议审稿人如何审稿, 大论文怎么审 | ** 会议审稿人注重创新, 大论文格式体现科研的基本素养。格式不行就代表首先素质不够。这种细节问题一些老教授会直接拒的。 |
别人第一篇sci的写作到中的心路历程 | Blog:here | ***作者的写作路程感觉自己很像, 作者参考的文章挺少的,根据中文的文章来写第一篇,然后投中文的创新性不足被拒了, 但是后面改进的算法个人也感觉创新性不是很足,但是作者投了英文给了大修,提出来很多意见, 可能是因为期刊质量不是特别高的原因吧。根据作者的反应:正常有返修的意见并且里面没有明确的拒绝, 只要好好改,回复态度认真,把所有问题都回复了,那么审稿人不会再为难你了。 就会给你通过的。 因此文章质量可能是入场券,但是如何让审稿人觉得你很重视他的工作, 没有浪费人家的时间也是非常关键的。 |
审稿人回复模板 | Blog:审稿意见怎么看 | * 从审稿人的回复模板中可以发现,自己审稿人会先总结你的工作, 给出优点, 然后从重点问题 (文章的具体创新和方法细节上阐述) , 次要问题(涉及写作风格、拼写、语法、图表质量、术语的解释、失误、交叉引用错误、漏引文献和表述方式)。 上进行总结, 最后给出自己的推荐意见。 |
审稿人怎么看稿子 | Blog:审稿汇总 | **我在审稿时主要关注这几点:论文写作,创新性,实验,引用。尤其是方法的创新性和实验,我个人觉得这两部分是最重要的。--------------------------------此外作者令人有启发的几个点: 如果只是简单的拼凑融合一下,算应用创新. 这种创新在好的期刊和一般的期刊中看法是不一样的, 好的期刊得有自己独特的创新. 一般的期刊如果这种创新,只要实验工作量大, 实际意义可以, 而且实验设计的合理,介绍的清楚的话. 还是很有可能中的. |
如何写项目申报书? | Blog:here | *** 这里面有个点很受启发,就是如何让全文围绕创新去讲述的时候如何不让自己文章看起来重复啰嗦: 每个部分从不同角度去提醒创新, 例如方法中通过方法来介绍创新, 相关工作中通过你的项目研究相对于现有研究的创新之处。介绍中通过创新价值去描述创新。 |
论文写作全套指导 | Blog:写论文的全套指导 | ** 还没看。 但是一看目录就觉得包含内容和知识挺多的。 |
一篇ccfc类的投稿经历 | Blog:here | *这个人中的会议和自己想要投的一模一样,看看人家工作做到什么程度了先。 |
文章只是 做了小改进怎么说? | Blog:here | d |
如何确定自己的投稿期刊 | Blog: | 首先我们先把自己的关键字进行搜索,看看相关的论文都发表在哪些期刊上,一般期刊比较固定,就那几个。 之后一定要去看投稿量,有的分区虽然比较低,但是接收量非常少。 选择投稿量较大的。 |
如何查找期刊得投稿速度 | Blog:video one , 关于哪个期刊比较快的讨论 | 这里我找了一些链接分享 |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |
d | Blog: | d |