目标识别算法整理

最新推荐文章于 2024-05-08 23:23:31 发布

myl0808

最新推荐文章于 2024-05-08 23:23:31 发布

阅读量1.6k

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_38502918/article/details/104613575

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

title: 算法整理
date: 2019-09-19

原本在个人博客上写了一些博文，现转移到CSDN上

目标识别算法整理

一、adv_imagenet_models
- 算法名称：经过对抗训练的ImageNet模型
- 特点：
- 数据集：如果要运行提供的示例，还需要ImageNet数据集的副本。按照准备 TF-Slim库中的数据集（https://github.com/tensorflow/models/tree/master/research/slim#Data）指令来获取和预处理ImageNet数据。
  imagenet数据集：
  http://www.image-net.org/challenges/LSVRC/2012/nnoupb/ILSVRC2012_img_train.tar
  http://www.image-net.org/challenges/LSVRC/2012/nnoupb/ILSVRC2012_img_val.tar
- 精度：
- 花费时间：
- 可能的出口：图像识别
- blog资源：https://blog.csdn.net/gzroy/article/details/85954329
二、adversarial_logit_pairing
- 算法名称：对抗性logit配对
- 特点：
- 数据集：支持以下几个数据集
  ImageNet（http://www.image-net.org/）。按照准备 TF-Slim文档中的数据集（https://github.com/tensorflow/models/tree/master/research/slim#Data）说明，下载ImageNet数据集并将其转换为TFRecord格式。
  微小的ImageNet（https://tiny-imagenet.herokuapp.com/）。要获取Tiny ImageNet数据集，请执行以下操作：
- 精度：
- 花费时间：
- 可能的出口：图像识别
- blog资源：https://github.com/tensorflow/models/tree/master/research/adversarial_logit_pairing
三、attention_ocr
- 算法名称：用于实际图像文本提取的模型
- 特点：TensorFlow模型，用于实际图像文本提取问题。
- 数据集：FSNS数据集（https://github.com/tensorflow/models/tree/master/research/street）数据集上训练新的Attention OCR模型以转录法国街道名称所需的代码。
- 精度：
- 花费时间：
- 可能的出口：
- blog资源：
四、cognitive_mapping_and_planning
- 算法名称：认知型地图构建器和规划器，用于视觉导航的基于空间存储器的映射和规划架构的实现
- 特点：
- 数据集：
- 精度：
- 花费时间：
- 可能的出口：
- blog资源：
  https://blog.csdn.net/c602273091/article/details/78819362
  https://blog.csdn.net/weixin_37251044/article/details/78569428
五、DeepLab
- 算法名称：语义图像分割的深度标注
- 特点：
- 数据集：可以自己制作。如数据需要标注，则可以使用labelme进行数据标注
- 精度：
- 花费时间：
- 可能的出口：图像分割
- blog资源：https://www.jianshu.com/p/b5f5cdc0ba9d
六、Delf
- 算法名称：用于图像匹配和检索的深层局部特征
- 特点：DELF对于大规模实例级图像识别特别有用。它检测并描述语义局部特征，这些特征可以在显示相同对象实例的图像之间进行几何验证。此处发布的预先训练的模型已针对地标识别进行了优化，因此期望它在该领域中运行良好。
- 数据集：基于Google标志性数据集的预训练模型
  https://www.kaggle.com/google/google-landmarks-dataset
  有两个Google-Landmarks数据集版本：
  初始版本（v1）可以在这里（https://www.kaggle.com/google/google-landmarks-dataset ）找到。包含“检测到检索”文件中描述的Google Landmark Box。
  第二版（v2）已作为两个Kaggle挑战的一部分发布：地标识别（https://www.kaggle.com/c/landmark-recognition-2019 ）和地标检索（https://www.kaggle.com/c/landmark-retrieval-2019 )。它可以在这里从CVDF(https://github.com/cvdfoundation/google-landmark )下载。
- 精度：
- 花费时间：
- 可能的出口：大规模实例级图像识别
- blog资源：https://blog.csdn.net/sparkexpert/article/details/80590452
七、im2txt
- 算法名称：图像字幕的图像到文本神经网络
- 特点：这个模型的作用跟它的名字一样，image-to-text，把图像转为文字，也就是图片描述
- 数据集：图像编码器是深度卷积神经网络。这种类型的网络广泛用于图像任务，并且目前是用于对象识别和检测的最先进技术。我们特别选择的网络是在ILSVRC-2012-CLS（http://www.image-net.org/challenges/LSVRC/2012/ ）图像分类数据集上预先训练的 Inception v3（https://arxiv.org/abs/1512.00567 ）图像识别模型。
- 精度：
- 花费时间：在NVIDIA Tesla K20m GPU上的经验，初始培训阶段需要1-2周。第二个培训阶段可能需要几个星期才能达到最佳性能（但您可以提前停止此阶段并仍然获得合理的结果）。
- 可能的出口：
- blog资源：https://blog.51cto.com/12340098/2337731
八、inception
- 算法名称：用于计算机视觉的深度卷积网络
- 特点：
- 数据集：ImageNet（http://www.image-net.org/ ）是用于训练图像识别系统的机器学习中的常见学术数据集。
- 精度：
- 花费时间：
- 可能的出口：图像识别
- blog资源：https://blog.csdn.net/loveliuzz/article/details/79135583
九、KeypointNet
- 算法名称：通过端到端几何eeasoning [ demo ] 发现潜在的3D关键点。
- 特点：给定已知类的单个2D图像，该网络可以预测一组3D关键点，这些关键点在同一对象的视角和对象实例之间是一致的。这些关键点及其探测器在没有关键点位置监控的情况下自动发现和学习
- 数据集：ShapeNet的汽车（https://storage.googleapis.com/discovery-3dkeypoints-data/cars_with_keypoints.zip ），飞机（https://storage.googleapis.com/discovery-3dkeypoints-data/planes_with_keypoints.zip ），椅子（https://storage.googleapis.com/discovery-3dkeypoints-data/chairs_with_keypoints.zip ）渲染。
  每组包含：
  tfrecords
  train.txt，用于培训的tfrecords列表。
  dev.txt，用于验证的tfrecords列表。
  test.txt，用于测试的tfrecords列表。
  projection.txt，存储全局4x4相机投影矩阵。
  job.txt，在每个tfrecord中存储ShapeNet的对象ID。
- 精度：
- 花费时间：
- 可能的出口：
- blog资源：https://blog.csdn.net/buyan4395/article/details/82890825
十、Marco
- 算法名称：自动化结晶实验的评估
- 特点：该模型将结晶实验图像作为输入：水晶样品,它将其归类为属于四种类别之一：晶体，沉淀物，透明物质或“其他物种”。
- 数据集：该模型可以从以下位置下载：
  https://storage.googleapis.com/marco-168219-model/savedmodel.zip
  可以从以下位置下载示例图像：
  https://storage.googleapis.com/marco-168219-model/002s_C6_ImagerDefaults_9.jpg
- 精度：
- 花费时间：
- 可能的出口：
- blog资源：
十一、object_detection
- 算法名称：在单个图像中本地化和识别多个对象
- 特点：
- 数据集：我们发布了更快的R-CNN探测器，其中ResNet-50 / ResNet-101特征提取器在iNaturalist物种检测数据集（https://github.com/visipedia/inat_comp/blob/master/2017/README.md#bounding-boxes )上进行了训练。对于4M迭代的iNaturalist数据的训练拆分训练模型，它们分别在2854个类中达到55％和58％的平均AP @ .5
- 精度：
- 花费时间：
- 可能的出口：对象检测
- blog资源：
十二、slim
- 算法名称：TF-Slim中的图像分类模型
- 特点：
- 数据集：
  作为该库的一部分，我们已经包含了下载几个流行图像数据集（下面列出）的脚本，并将它们转换为超薄格式。

        数据集	训练集大小	测试集大小	课程数量	评论
        花卉	2500	        2500	            五	各种尺寸（来源：Flickr）
        Cifar10	60K	            10K	            10	32x32颜色
        MNIST	60K	            10K	            10	28x28灰色
        ImageNet1.2M	        50K         	    1000各种大小
        VisualWakeWords	82783	40504	            2	各种尺寸（来源：MS COCO）

    cifar10（https://www.cs.toronto.edu/~kriz/cifar.html ）
    mnist（http://yann.lecun.com/exdb/mnist/ ）
    imagenet（http://www.image-net.org/challenges/LSVRC/2012/ ）

- 精度：
- 花费时间：
- 可能的出口：
- blog资源：https://www.cnblogs.com/hejunlin1992/p/8082535.html

myl0808

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
目标识别算法整理

title: 算法整理date: 2019-09-19原本在个人博客上写了一些博文，现转移到CSDN上目标识别算法整理一、adv_imagenet_models算法名称：经过对抗训练的ImageNet模型特点：数据集：如果要运行提供的示例，还需要ImageNet数据集的副本。按照准备 TF-Slim库中的数据集（https://github.com/tens...
复制链接

扫一扫