- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 多模态大模型训练数据集汇总介绍
RefCOCO+中的查询不包含绝对的方位词,如描述对象在图像中位置的右边。OCR-VQA-200K是一个通过读取图像中的文本(OCR)进行视觉问答的大规模数据集,包含20多万张书籍封面图像及100多万个相关问答对,随机将80%、10%和10%的图像分别用于训练、验证和测试,因此分别产生了大约800K、100K和100K的训练、验证和测试QA对。数据集示例如下图所示,每个图的 caption 描述在图片正下方,绿色是根据下面的 caption 标注的 gt,蓝色是预测正确的框,红色是预测错误的框。
2023-11-21 23:01:14 7984 1
原创 工 作 随 记
Grounded-SAM: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP & Whisper - Automatically Detect , Segment and Generate Anything with Image, Text, and Speech Inputs.https://github.com/IDEA-Research/Grounded-Segment-AnythingGrounding D
2023-04-12 13:42:06 237
原创 【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者
本篇文章是对目标检测YOLO系列的性能总结,主要介绍了2021年YOLO系列的最高精度YOLOR是怎样炼成的。
2022-03-28 21:26:29 13146 3
原创 【算法基石】二叉树前序、中序、后序、层次、深度优先(前序)、广度优先(层次)遍历
二叉树遍历[Java] https://www.cnblogs.com/llguanli/p/7363657.html二叉树遍历[Python] https://my.oschina.net/magicalee/blog/2209301
2019-07-13 21:35:10 583
原创 【C++基石】引用与指针的区别
引用与指针的区别 https://blog.csdn.net/lyd_253261362/article/details/4323691
2019-07-13 21:08:48 537
原创 【图像Attention】
Attention机制【图像】https://blog.csdn.net/weixin_41923961/article/details/81516589
2019-07-08 21:31:03 1194
原创 【DL基石】基本知识点
CNN卷积层参数量(参数个数)计算 https://zhuanlan.zhihu.com/p/57437131CNN卷积层计算量(FLOPS)计算 https://www.liangzl.com/get-article-detail-19259.html
2019-07-08 21:28:24 583
原创 【CV基石】目标检测必读
arxiv2015_baidu_DenseBox https://zhuanlan.zhihu.com/p/40221183从结构、原理到实现,Faster R-CNN全解析 https://zhuanlan.zhihu.com/p/32702387从编程实现角度学习Faster R-CNN https://zhuanlan.zhihu.com/p/32404424目标检测FPN https...
2019-07-07 23:49:43 705
原创 【DL基石】优化算法
Deep Learning 之 最优化方法Deep Learning 最优化方法之SGDDeep Learning 最优化方法之Momentum(动量)Deep Learning 最优化方法之Nesterov(牛顿动量)Deep Learning 最优化方法之AdaGradDeep Learning 最优化方法之RMSPropDeep Learning 最优化方法之Adam深度学习...
2019-07-02 17:10:00 553
原创 【算法基石】P问题,NP问题,NPC问题,NP-Hard问题
https://blog.csdn.net/bitcarmanlee/article/details/51935400https://blog.csdn.net/qq_23947237/article/details/80250899https://blog.csdn.net/huang1024rui/article/details/49154507https://www.jianshu.c...
2019-05-24 16:22:19 533
原创 【ML基石】K-Means与KNN
k-means聚类算法原理总结Kmeans、Kmeans++和KNN算法比较机器学习之深入理解K-means、与KNN算法区别及其代码实现机器学习_基于距离的算法KNN与K-Means
2019-05-23 18:34:13 537
原创 【ML基石】L0范数、L1范数、L2范数与核范数正则化
机器学习中的范数规则化之(一)L0、L1与L2范数机器学习中的范数规则化之(二)核范数与规则项参数选择机器学习中 L1 和 L2 正则化的直观解释L0、L1、L2范数在机器学习中的应用L1正则化与L2正则化的理解L1正则化与L2正则化机器学习中正则化项L1和L2的直观理解...
2019-05-22 22:32:01 825
原创 【CV应用】人脸光线矫正
https://www.jianshu.com/p/bd12c4273d7dhttps://blog.csdn.net/qq_29540745/article/details/74681853https://www.jianshu.com/p/68882c894814https://blog.csdn.net/wuzuyu365/article/details/51898714https:...
2019-05-16 16:16:30 801
原创 【CV应用】人脸美颜
传统算法https://zhuanlan.zhihu.com/p/29718304https://github.com/QuantumLiu/AIMakeuphttps://github.com/PerpetualSmile/BeautyCamerahttps://www.jianshu.com/p/3a028a908c19https://blog.csdn.net/weixin_410...
2019-05-15 15:45:16 1375
原创 【CV基石】Forward Propagation 与 Backward Propagation(MSE简单版)
推导示例前向传播反向传播不断的使用链式法则,从后向前求得Loss对每一层的特征值X、权重W、偏置b的导数,对X、W、b进行更新,然后重复前传和反传操作,直到Loss收敛。采用MSE作为Loss函数,则有:代码实现Python实现代码如下:参考链接一文弄懂神经网络中的反向传播法——BackPropagationpython简单实现 反向传播算法...
2019-05-13 23:52:57 986
原创 【CV基石】Center Loss
https://blog.csdn.net/u014380165/article/details/76946339https://blog.csdn.net/chanbo8205/article/details/85056020
2019-05-11 17:58:11 527
原创 【CV基石】RoI Pooling与RoIWarp Pooling与RoIAlign Pooling与Precise RoI Pooling
https://blog.csdn.net/wangyong1988/article/details/81064995https://blog.csdn.net/kk123k/article/details/86563425https://blog.csdn.net/m_buddy/article/details/85110124https://github.com/chainer/chai...
2019-05-10 23:02:26 790
原创 【CV基石】Batch Normalization
BN作用首先,在进行训练之前,一般要对数据做归一化,使其分布一致,但是在深度神经网络训练过程中,通常以送入网络的每一个batch训练,这样每个batch具有不同的分布;此外,为了解决batch normalizaiton论文中提出的internal covarivate shift问题,因为在训练过程中,数据分布会发生变化,对下一层网络的学习带来困难。Internal Covariate S...
2019-05-10 16:51:27 702
原创 【CV基石】Softmax and CrossEntropy
SoftmaxSoftmax 函数接收一个这N维向量(或者MxN维的数组,M代表样本数,N代表类别数)作为输入,然后把每一维的值转换成(0,1)之间的一个实数,公式如下:pi=eai∑k=1Neakp_{i}=\frac{e^{a_{i}}}{\sum_{k=1}^{N} e^{a_{k}}}pi=∑k=1Neakeai为保持数值稳定,避免出现nan情况,一般对输入向量做归一化...
2019-05-05 20:11:50 560
原创 【CV基石】对目标检测原始边框进行NMS
NMS之前# -*- coding: UTF-8 -*-import numpy as npimport cv2def nms(predicts_dict, threshold=0.2): """Implement non-maximum supression on predict bounding boxes. Parameters ---------- ...
2019-05-02 12:26:35 644
原创 【CV基石】计算两个矩形框的IOU
计算两个矩形框的IOU# -*- coding: UTF-8 -*-import numpy as npimport cv2def iou(bbox1, bbox2, center=False): """Compute the iou of two boxes. Parameters ---------- bbox1, bbox2: list. ...
2019-05-02 12:02:11 2374 2
翻译 【双语论文】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks更快的区域卷积神经网络:用区域建议网络朝着实时目标检测迈进AbstractState-of-the-art object detection networks depend on region proposal algorithms to...
2019-03-14 22:29:30 2019 2
翻译 【双语论文】Joint 3D Proposal Generation and Object Detection from View Aggregation
Joint 3D Proposal Generation and Object Detection from View Aggregation利用视角聚合进行联合3D候选区域生成和目标检测AbstractWe present AVOD, an Aggregate View Object Detection network for autonomous driving scenarios. T...
2019-01-17 23:43:53 3595
原创 自动驾驶之路(一): 自动驾驶架构解析
自动驾驶架构解析演进路线整体架构Apollo1.0Apollo1.5Apollo2.0Apollo2.5Apollo3.0硬件部署Apollo2.5Apollo3.0硬件连接软件逻辑演进路线整体架构Apollo1.0Apollo1.5Apollo2.0Apollo2.5Apollo3.0硬件部署Apollo2.5Apollo3.0硬件连接软件逻辑...
2018-11-03 15:38:26 11236
AVOD论文解析
2019-01-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人