Deeplav V3总结

最新推荐文章于 2024-08-19 09:04:27 发布

Astonc

最新推荐文章于 2024-08-19 09:04:27 发布

阅读量7.2w

点赞数

文章标签： TFboys 环境匹配

本文链接：https://blog.csdn.net/weixin_41063476/article/details/107760086

版权

Deeplav V3 tricks DeepLab系列之V3+

model 使用
其实就两步：
1.下载model:(很多2.0以下的model，官方都把research删除了。如下的支持 1.12 到 2.0 的)
链接: https://pan.baidu.com/s/14UMZsJyUFDqeA1xMN2EQug 密码: mapg

2.路径添加：

export PYTHONPATH=$PYTHONPATH:`tensorflow/models/research/`:`tensorflow/models/research/`/slim

如果要调用object_api 才需要protoc编译之类的操作，具体参考：

1.Separable Convolution(Depthwise Convolution+Pointwise Convolution) 在参数量相同的前提下，采用Separable Convolution的神经网络层数可以做的更深。

2.如何实现深度卷积?

3.Atrous depthwise convolution, dilated convolution）？这里说一下dilated convolution和atrous convolution。

扩张卷积（dilated convolutions）又名空洞卷积（atrous convolutions），向卷积层引入了一个称为 “扩张率(dilation rate)”的新参数，该参数定义了卷积核处理数据时各值的间距。换句话说，相比原来的标准卷积，扩张卷积（dilated convolution）多了一个hyper-parameter（超参数）称之为dilation rate（扩张率），指的是kernel各点之前的间隔数量，【正常的convolution 的 dilatation rate为 1。

4.Spatial Pyramid Pooling

5.CItyscape label 26 >> trainID 13

当然你也可以根据自己的需求，例如你只想训练你的网络检测"person", 你就把第24个标签值设置为0，其他全部设置成 -1。

使用

json2labelImg( f , dst , "trainIds" )

                 name |  id | trainId |       category | categoryId | hasInstances | ignoreInEval|        color
--------------------------------------------------------------------------------------------------
            unlabeled |   0 |     255 |           void |          0 |            0 |            1 |         (0, 0, 0)
          ego vehicle |   1 |     255 |           void |          0 |            0 |            1 |         (0, 0, 0)
 rectification border |   2 |     255 |           void |          0 |            0 |            1 |         (0, 0, 0)
           out of roi |   3 |     255 |           void |          0 |            0 |            1 |         (0, 0, 0)
               static |   4 |     255 |           void |          0 |            0 |            1 |         (0, 0, 0)
              dynamic |   5 |     255 |           void |          0 |            0 |            1 |      (111, 74, 0)
               ground |   6 |     255 |           void |          0 |            0 |            1 |       (81, 0, 81)
                 road |   7 |       0 |           flat |          1 |            0 |            0 |    (128, 64, 128)
             sidewalk |   8 |       1 |           flat |          1 |            0 |            0 |    (244, 35, 232)
              parking |   9 |     255 |           flat |          1 |            0 |            1 |   (250, 170, 160)
           rail track |  10 |     255 |           flat |          1 |            0 |            1 |   (230, 150, 140)
             building |  11 |       2 |   construction |          2 |            0 |            0 |      (70, 70, 70)
                 wall |  12 |       3 |   construction |          2 |            0 |            0 |   (102, 102, 156)
                fence |  13 |       4 |   construction |          2 |            0 |            0 |   (190, 153, 153)
           guard rail |  14 |     255 |   construction |          2 |            0 |            1 |   (180, 165, 180)
               bridge |  15 |     255 |   construction |          2 |            0 |            1 |   (150, 100, 100)
               tunnel |  16 |     255 |   construction |          2 |            0 |            1 |    (150, 120, 90)
                 pole |  17 |       5 |         object |          3 |            0 |            0 |   (153, 153, 153)
            polegroup |  18 |     255 |         object |          3 |            0 |            1 |   (153, 153, 153)
        traffic light |  19 |       6 |         object |          3 |            0 |            0 |    (250, 170, 30)
         traffic sign |  20 |       7 |         object |          3 |            0 |            0 |     (220, 220, 0)
           vegetation |  21 |       8 |         nature |          4 |            0 |            0 |    (107, 142, 35)
              terrain |  22 |       9 |         nature |          4 |            0 |            0 |   (152, 251, 152)
                  sky |  23 |      10 |            sky |          5 |            0 |            0 |    (70, 130, 180)
               person |  24 |      11 |          human |          6 |            1 |            0 |     (220, 20, 60)
                rider |  25 |      12 |          human |          6 |            1 |            0 |       (255, 0, 0)
                  car |  26 |      13 |        vehicle |          7 |            1 |            0 |       (0, 0, 142)
                truck |  27 |      14 |        vehicle |          7 |            1 |            0 |        (0, 0, 70)
                  bus |  28 |      15 |        vehicle |          7 |            1 |            0 |      (0, 60, 100)
              caravan |  29 |     255 |        vehicle |          7 |            1 |            1 |        (0, 0, 90)
              trailer |  30 |     255 |        vehicle |          7 |            1 |            1 |       (0, 0, 110)
                train |  31 |      16 |        vehicle |          7 |            1 |            0 |      (0, 80, 100)
           motorcycle |  32 |      17 |        vehicle |          7 |            1 |            0 |       (0, 0, 230)
              bicycle |  33 |      18 |        vehicle |          7 |            1 |            0 |     (119, 11, 32)
        license plate |  -1 |      -1 |        vehicle |          7 |            0 |            1 |       (0, 0, 142)

coco类别：
coco_id_name_map={1: ‘person’, 2: ‘bicycle’, 3: ‘car’, 4: ‘motorcycle’, 5: ‘airplane’,
6: ‘bus’, 7: ‘train’, 8: ‘truck’, 9: ‘boat’, 10: ‘traffic light’,
11: ‘fire hydrant’, 13: ‘stop sign’, 14: ‘parking meter’, 15: ‘bench’,
16: ‘bird’, 17: ‘cat’, 18: ‘dog’, 19: ‘horse’, 20: ‘sheep’, 21: ‘cow’,
22: ‘elephant’, 23: ‘bear’, 24: ‘zebra’, 25: ‘giraffe’, 27: ‘backpack’,
28: ‘umbrella’, 31: ‘handbag’, 32: ‘tie’, 33: ‘suitcase’, 34: ‘frisbee’,
35: ‘skis’, 36: ‘snowboard’, 37: ‘sports ball’, 38: ‘kite’, 39: ‘baseball bat’,
40: ‘baseball glove’, 41: ‘skateboard’, 42: ‘surfboard’, 43: ‘tennis racket’,
44: ‘bottle’, 46: ‘wine glass’, 47: ‘cup’, 48: ‘fork’, 49: ‘knife’, 50: ‘spoon’,
51: ‘bowl’, 52: ‘banana’, 53: ‘apple’, 54: ‘sandwich’, 55: ‘orange’,
56: ‘broccoli’, 57: ‘carrot’, 58: ‘hot dog’, 59: ‘pizza’, 60: ‘donut’,
61: ‘cake’, 62: ‘chair’, 63: ‘couch’, 64: ‘potted plant’, 65: ‘bed’, 67: ‘dining table’,
70: ‘toilet’, 72: ‘tv’, 73: ‘laptop’, 74: ‘mouse’, 75: ‘remote’, 76: ‘keyboard’,
77: ‘cell phone’, 78: ‘microwave’, 79: ‘oven’, 80: ‘toaster’, 81: ‘sink’,
82: ‘refrigerator’, 84: ‘book’, 85: ‘clock’, 86: ‘vase’, 87: ‘scissors’,
88: ‘teddy bear’, 89: ‘hair drier’, 90: ‘toothbrush’}

Tensorflow之环境版本匹配问题(个人觉得最好docker)

tensorflow与pip包对应关系	https://docs.floydhub.com/guides/tensorflow/
tensorflow与keras对应关系	https://docs.floydhub.com/guides/environments/

Pytorch安装 Cuda 安装版本选择

1. Anconda 安装（5.3.2以上）	清华源下载sh 再bash XXXX.sh （anconda不要加到环境路径）之后自己加 export PATH=/home/XXX/anaconda3/bin:$PATH
2. Anconda 添加源,参考paddle添加源	conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/;conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/;conda config --set show_channel_urls yes
3. conda create -n pytorch_env python=3.7	创建环境，如果很慢就是没加源
4. source activate pytorch_env	进入环境，开始装各种cuda cudnn pytorch。备注;source deactivate pytorch_env,不要conda deactivate pytorch_env
5. conda install pytorch torchvision cudatoolkit=10.1 -c pytorch	参考官网，不要后面的 -c pytorch 如果慢的话，我是没加
6.conda install cudnn=7.6.4	安装cudnn 7.6.4 应该是可以加到上面指令的，cuda 10.1 500+M cudnn 200+M
7.conda remove -n pytorch_env --all	至此 pytorch cuda 10.1 python 3.7 安装完成

conda 环境用到别的机器上

环境会被保存在 environment.yaml文件中
conda导出已有环境：	conda env export > environment.yaml
当我们想再次创建该环境，或根据别人提供的.yaml文件复现环境时，可以：	conda env create -f environment.yaml

就可以复现安装环境。移植过来的环境只是安装了你原来环境里用conda install等命令直接安装的包，你用pip之类装的东西没有移植过来，需要你重新安装。


pip导出安装的库到requirements.txt	pip freeze > requirements.txt
pip导入requirements.txt中列出的库到系统	pip install -r requirements.txt

Git 在线学习https://learngitbranching.js.org/ 中文在线学习https://oschina.gitee.io/learn-git-branching/?NODEMO

pytorch 学习

版本对应关系

DCNv2	Pytorch: 不同版本安装地址

centertrack 的DCNv2安装问题 centertrack github 如果clone慢的话用 gitee

opencv-python
Cython
numba
progress
matplotlib
easydict
scipy
pyquaternion
nuscenes-devkit  ###1.0.1 used   and torch=1.2 trochvision=0.4.0
pyyaml
motmetrics
scikit-learn==0.22.2

mask_rcnn/maskrcnn/model.py

问题:AttributeError: ‘Model’ object has no attribute ‘metrics_tensors’

解决办法:https://blog.csdn.net/DeMeng33/article/details/103953984
2199 self.keras_model.metrics_tensors.append(loss) 改为self.keras_model.metrics_tensors = []
虽然解决了问题,但不保险,以后用keras=2.2.5 tf=1.14 cuda=9.2 及相应的lib版本试下,目前就这么办吧

超大数据集集市整理，，如果下载慢的话，到集市找一下，也许就有了

超大数据集	数据集描述
2019年旷视科技 Object365	365 categories 2 million images 30 million bounding boxes
2017年MIT Places365	400+scene categories 10 million images

NLP实验室：

	- 语音实验室	-语言技术实验室
目标	致力于语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等下一代人机语音交互基础理论、关键技术和应用系统的研究工作。形成了覆盖电商、新零售、司法、交通、制造等多个行业的产品和解决方案，为消费者、企业和政府提供高质量的语音交互服务	语言技术实验室致力于以自然语言实施人与机器之间有效交流的各种理论和方法。该实验室对多种自然语言处理技术的研究，例如情感分析，信息提取和机器阅读理解，已经得到了广泛的应用，包括客户服务，信息服务，刑事司法和医学
研究方向	1.语音识别及语音唤醒。面向家居、车载、办公室、公共空间、强噪声、近远场等复杂场景，研究多语言、多模态、端云一体的语音识别及唤醒技术，通过平台方式提供丰富的开发者定制模型自学习能力，让业务具备语音模型的自定制能力。2.语音合成。研究高音质、高表现力的语音合成技术及个性化语音合成，说话人转换技术，主要应用于语音交互、信息播报和篇章朗读等场景。3.声学及信号处理。研究声学器件、结构和硬件方案设计，基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。4.声纹识别与音频事件检测。研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。5.口语理解及对话系统。基于自然语言理解技术，构建语音交互场景下的口语理解和对话系统，提供给开发者自纠错能力及对话定制能力。6.端云一体语音交互平台。综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力，构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台，帮助第三方具备可扩展定制化的场景能力。7.多模态人机交互。业内首创在公众场所强噪音的环境下实现免唤醒远场语音交互，并结合流式多轮多意图口语理解，业务知识图谱自适应等技术，面向公共空间真实复杂的场景提供自然语音交互体验。	1.基础技术。研究形态，语法，多语言，知识表示和推理以及相关技术，以支持自然语言技术的创建和阿里巴巴商业经济的应用。这些服务每天被使用超过8000亿次。2.语义计算。研究自然语言理解，语义分析和相关技术，这些技术应用于问答，文本摘要和文本蕴含/推论。3.技术应用。情感分析，文本分类，基于语音的信息检索，推荐算法，文本生成和事件提取的研究已应用于各种场景，例如电子商务，通信，刑事司法和信息服务。4.机器翻译。研究语音（基于语音）和多模式（基于图像）机器翻译。由此产生的技术支持20多种语言，包括中文，英语，俄语，西班牙语，泰语和印度尼西亚语，并且被要求与阿里巴巴服务进行实时使用，每天平均使用次数超过7亿次。
产品	1.致力于用最自然的人机语音交流方式，打造公共空间真实场景下的智能服务机器。主打业内首创的强噪声环境下的免唤醒语音交互、语音识别、流式多轮多意图口语识别等技术，已应用于交通行业和新零售行业。1）地铁语音售票机：全球首台地铁语音售票机，用户能够用该机器进行语音站点查询、语音模糊地点查询并完成路径规划；用户购票时间由30秒下降至10秒。2）快餐店语音点餐机：用户可以用人机交流式的语音交互方式，完成客制化点餐需求的快速下单。2.应用于智能语音导航（电话客服机器人、快递咨询等）、智能外呼（催收、回访、发货前确认等）、金牌话术、智能质检、App服务直达等多种场景。目前已落地于支付宝95188热线、菜鸟电话机器人、中国平安培训助手、中国移动智能客服等。3.提供全链路语音交互的能力，跨平台接入各类设备，具备有交互系统的场景化、定制化能力和主动交互能力。1）车载语音智能助手：已与上汽荣威、福特等汽车品牌合作。2）远场语音电视：阿里-海尔五代人工智能电视，用户与电视机进行远场语音交互。4.将语音识别技术、防串音处理技术、自然语言理解、大数据分析等技术综合运用，用于庭审语音识别与记录、案件分析等场景。目前已应用于浙江高院、福建高院等客户，覆盖全国28个省市，超过1万个法庭。5.开源新一代语音识别声学模型DFSMN，将公开英文数据库上的语音识别准确率提高至96.04%，是近年来语音识别领域极具代表性的成果之一。	1.Ali Reader可以通过使用算法分析相关的非结构化文本（文档，描述，网页等）来总结答案，从而理解用户的请求和查询。它在客户服务，信息服务，培训和其他场景中具有广泛的应用。阿里巴巴的许多产品都在使用Ali Reader，包括Alicare，Alimebot和Intelligent Service Robot。借助已建立的问答功能，可以快速有效地发布每种产品，从而减少了手动预处理工作量。2.通过使用机器翻译，跨语言检索和语言词法分析技术，Ali Tran可以打破买卖双方之间的多语言障碍。阿里巴巴翻译技术赢得了许多国际竞争，并被阿里巴巴业务部门广泛使用，包括阿里巴巴国际B2B，速卖通和Lazada跨境电子商务平台，每天的使用量超过7亿次。将来，Ali Tran将集成到阿里云产品中，以支持和改善合作伙伴业务。3.Ali NLP基于多种NPL技术，包括文本数据收集和处理技术，词汇的多语言分析技术，语法，语义，文本分布式表示技术和垂直技术（情感分析，文本反垃圾邮件和问答），每天在服务场景中的使用量超过8000亿。4.阿里巴巴与浙江省最高人民法院和浙江大学合作创建“司法大脑”。司法大脑利用DAMO Academy在文本生成，知识图，信息提取，深度神经网络和信息检索方面的优势来全面组织法律知识，总结证据标准，完善审判规则，解构案件和规章并形成司法知识图来提供帮助法官实时进行预先裁定并提供裁定参考文件。司法大脑以定制算法的形式向用户提供量身定制的解决方案。5.该系统利用NLP技术和医学知识图谱对病历进行深入的质量控制分析，以书面形式提高病历质量，提高治疗效果，降低病患风险，使医务人员可以自由集中精力在管理，教育，培训等方面。该系统正在构建用于跟踪中国患者人数的国家数据平台，以不断改善中国公民的健康状况。