bert相关
Bert核心代码解读https://blog.csdn.net/one_super_dreamer/article/details/105344649
https://blog.csdn.net/one_super_dreamer/article/details/105181690深度学习在NLP领域的发展之Transformer
https://blog.csdn.net/one_super_dreamer/article/details/105206692Bert模型详解和训练实例
https://www.jianshu.com/p/160c4800b9b5BERT模型学习与分析
https://nbviewer.jupyter.org/github/aespresso/a_journey_into_math_of_ml/blob/master/04_transformer_tutorial_2nd_part/.ipynb_checkpoints/transformer_2-checkpoint.ipynb中文自然语言处理
Transformer模型(二)
BERT的预训练与应用
https://nbviewer.jupyter.org/github/aespresso/a_journey_into_math_of_ml/blob/master/03_transformer_tutorial_1st_part/transformer_1.ipynb中文自然语言处理
Transformer模型(一)
https://github.com/aespresso/a_journey_into_math_of_ml/blob/master/03_transformer_tutorial_1st_part/transformer_1.ipynb
image captioning
【CV+NLP】更有智慧的眼睛:图像描述(Image Caption)&视觉问答(VQA)综述(上)https://zhuanlan.zhihu.com/p/52499758
caption重要性 image_Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型…https://blog.csdn.net/weixin_28689193/article/details/112013520?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-1&spm=1001.2101.3001.4242
https://blog.csdn.net/weixin_44826203/article/details/107609852?utm_medium=distribute.pc_relevant_download.none-task-blog-baidujs-1.nonecase&depth_1-utm_source=distribute.pc_relevant_download.none-task-blog-baidujs-1.nonecase超详细!“看图说话”(Image Caption)项目实战
https://blog.csdn.net/weixin_45385271/article/details/105416176?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242用于图像字幕生成(image caption)数据集
Image Caption:图像字幕生成https://blog.csdn.net/yujianmin1990/article/details/81259340
图像字幕生成概述https://zhuanlan.zhihu.com/p/158511833
https://segmentfault.com/a/1190000017341866
深度学习实现自动生成图片字幕
文档识别 · 计算机视觉 · 多模态学习 · 图像字幕 · 自然语言处理 · 2019 年 9 月 20 日
[ICDAR2019"网络"在语言、视觉和语言方面:计算机视觉中的文本模式
https://www.zhuanzhi.ai/topic/2001366226698728
基于Conditional Layer Normalization的条件文本生成
https://kexue.fm/archives/7124#%E6%80%9D%E8%B7%AF%E7%BB%86%E8%8A%82
【图像理解】自动生成图像的文本描述https://blog.csdn.net/jinxueliu31/article/details/51008271?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-5&spm=1001.2101.3001.4242
https://blog.csdn.net/qq_43820692/article/details/112859426?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control图像文本生成之用于生成图像描述的深度视觉语义对齐
Deep Visual-Semantic Alignments for Generating Image Descriptions(深度视觉-语义对应对于生成图像描述)…https://blog.csdn.net/weixin_30654419/article/details/99051284?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242
多模态
https://blog.csdn.net/update7/article/details/112401228
OpenViDial:一个大规模多模态对话数据集
https://wenku.baidu.com/view/7bf3ea846394dd88d0d233d4b14e852458fb39de.html 多模态信息处理研究进展及趋势 (里面有多模态数据集的构建)
MultiSynth基于多模态数据集的程序合成
https://cdmd.cnki.com.cn/Article/CDMD-10614-1020737068.htm基于多模态数据的文本摘要生成研究
中间遇到的问题随笔
g.shape[:2] 取彩色图片的长、宽。
如果img.shape[:3] 则取彩色图片的长、宽、通道。
关于img.shape[0]、[1]、[2]
img.shape[0]:图像的垂直尺寸(高度)
img.shape[1]:图像的水平尺寸(宽度)
img.shape[2]:图像的通道数
在矩阵中,[0]就表示行数,[1]则表示列数。