深度学习视频(一)

1、深度学习

在这里插入图片描述

人工神经网络:大量神经元以某种连接方式构成的数学模型,从属于机器学习模型。
F(X)=y。
主流(重点学习):RNN(循环神经网络),CNN(卷积神经网络)。

1.1深度神经网络——深度学习

深度学习本质是神经网络,其中“深”表示网络层数深,从传统的个位数加深到成百上千层。
在这里插入图片描述
在这里插入图片描述
LeNet-5:5层,AlexNet:5+3=8层,VGG:16层,GoogleNet:22层,ResNet:152层。
拉动人工智能的三个马车:算法(算法模型);算力(GPU);算料(数据)。
已经有了经典的算法模型例CNN,RNN,就不需要改动网络结构,层数。

1.2深度学习技术可以应用到图像,语言,自然语言处理等众多领域。

分割:将图像的轮廓画出来
超像素分割:将相同的像素归结在一起
语义分割:将图像上所有图像都分出一个类别
实例分割:将轮廓框出来
全景分割
在这里插入图片描述
语音:语音识别
自然语言处理:文本生成,文本分类。
文本生成演示

2、图像识别

图像识别:是指利用计算机图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。
人脸识别:人脸检测;人脸比对;人脸对齐(关键点检测);

2.1数字图像

在这里插入图片描述
RGB图像,(0,0,0)黑色;(255,255,255)白色
图像shape=(H,W,C)
成像方式:
伽马射线成像:用于核医学和天文观察。核医学中,将放射性同位素注射到人体,同位素衰变时放射出伽马射线,检测仪收集射线产生图像。
X射线:电磁辐射源之一,肺部CT,X光胸片。
可见光成像:电磁波谱

2.2数字图像存储形式

彩色图像(RGB图像)以一个3位数组形式表示,格式(H,W,3)
灰度图像以2/3位数组形式表示,通常格式为(H,W)或(H,W,1)
像素深度
数字化图像的每个像素是用一组二进制数进行描述,其中包含表示图像颜色的位,图中每个像素颜色所占的二进制位位数,称为图像深度。
通常的RGB图像各通道是8位深度,有256种色阶,总共可表示16,777,216种色彩,俗称千万色
若各通道加深至10位,则可表示1,073,741,824种色彩,即十亿色。

在这里插入图片描述
数字图像需要关注图像的形状和像素值。
在这里插入图片描述

2.3图像识别应用:

图像分类:给定输入图片,输出将其分裂到已知类别中。识别出:猫
在这里插入图片描述

图像分割:是像素级的分类,把图片中属于同一区域的像素赋予相同的编号。物体分割,人物抠图。
在这里插入图片描述
目标检测:在图像中将目标框出来。
在这里插入图片描述
图像生成:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值