08.05-08.10第32周已完成

qq_45934039

已于 2024-08-13 14:05:48 修改

阅读量769

点赞数 7

文章标签：人工智能

于 2024-08-12 17:45:01 首次发布

本文链接：https://blog.csdn.net/qq_45934039/article/details/140925027

版权

~~pycharm基本使用~~

~~pycharm debug怎样调试代码~~

深度学习 CNN RNN 5天

计算机视觉CV理论基础 14天

YOLOv5目标检测原理和源码4天

计算机视觉之目标检测、目标分割、目标跟踪7天 14h

计算机视觉之车道线检测 3天

计算机视觉之车道线分割 8天

指示交通灯识别 1天

李沐学ai看个5p 30h

小土堆yolo 5p 2.5h

0805

开始每天三小时学习

第一小时：看买的课

pycharm基本使用

【零基础】PyCharm基本功能入门详解_哔哩哔哩_bilibili

解释了什么是：解释器（python）、编辑器（pycharm），推荐安装annacanda（集成了很多库）

ctrl + alt + l可以自动帮你给代码排版

keymap可以看快捷键，PEP 8规范、文件模板、editor里的live templat里有一些代码快捷模板、open in explore、TODO的作用、常用快捷键、安装Virtualenv虚拟环境时，会有一个base环境进行拷贝，可以选择是否继承全局环境里的包和库。（意味着Virtualenv虚拟环境可以继承系统环境里的配置）

而conda是从网上重新下载一个解释器，另外不同在于，Virtualenv会把venv文件放在项目文件夹里，而conda会把venv文件放在annocanda里。

两点不同：基础解释器来源；venv文件位置

-----------------------

pycharm debug怎样调试代码

Pycharm debug 怎样使用Pycharm调试代码_哔哩哔哩_bilibili

step into， step out（跳出时会把这个函数运行完，返回result）

step into my code：区别在于只有在当前脚本定义了函数才会into

step over

run to cursor运行到光标指定的位置

控制台调试

-----------------------

计算机视觉之目标检测、目标分割、目标跟踪7天

Introduction_哔哩哔哩_bilibili

迁移学习

11.1 迁移学习【斯坦福21秋季：实用机器学习中文版】_哔哩哔哩_bilibili

看下迁移学习 李沐，重点是找到目标构架是否有预训练好的模型（tensorflow hub 和 TIMM）

基本思想：每一个完整的神经网络都可以分为编码器（提取特征）和解码器（线性层分类器）。

基本步骤：

初始化模型：（注意！！！你的模型要和预训练的模型构架一致）

初始化特征提取器，其权重为预训练模型权重，

随机初始化分类器

在本地最小值附近进行参数优化

用小的学习率和小的epoch进行训练（这也是为什么叫微调）

标准化搜索空间

微调期间冻结底层网络（把layer1等层的学习率变成0）超参数加一！！！

基本思想：底层网络学习的是比较底层的特征，可以从感受野进行理解。底层特征是通用的，包括曲线、边缘等。而高层网络对应的高层特征更加特定于任务和数据集，例如标签分类。

步骤：

保证底层通用网络不变

专注于学习特定的任务

强大的正则化器

例子

import timm
from torch import nn

model = timm.ccreat_model('resnet18', pretrained)
model.fc = nn.Linear(model.fc.in_features, n_class)

好处：收敛更快，精度不会变坏

-------------------------------------

0806

李沐学ai

2p 1.5h

p04

x+=1 是原地操作

x = x+1新内存

p5

axis=1很有意思。可以这样理解：把[2,5,4]中的第二维“5”给“吃掉”了，结果是[2,4]，这样会好理解些。

a = torch.arange(20*2).reshape(2,5,4)
a.shape, a.sum(), a
a_sum_0 = a.sum(axis=0)
a_sum_0,a_sum_0.shape
a_sum_1 = a.sum(axis=1)
a_sum_1,a_sum_1.shape

L1 和 L2范数

矩阵的 F范数

？？torch中确实不区分行向量和列向量

小土堆yolo 5p

5p 1.2h [1:3,1:]左闭右开

cv慕尼黑

5p 3.5h

p 3

Problems of 1. Template matching + sliding window
– Occlusions: we need to see the WHOLE object
– This works to detect a given instance of an object but not
a class of objects
– Objects have an unknown position, scale and aspect
ratio, the search space is searched inefficiently with
sliding window

1. 模板匹配 + 滑动窗口的问题

– 遮挡：我们需要看到整个物体
– 这种方法可以检测物体的给定实例，但不能检测物体的类别
– 物体的位置、比例和纵横比未知，使用滑动窗口搜索搜索空间效率低下

2. Feature extraction + classification – Learning multiple weak learners to build a strong classifier – That is, make many small decisions and combine them for a stronger final decision

2. 特征提取 + 分类

– 学习多个弱学习器以构建强分类器
– 即做出许多小决策并将它们结合起来
以做出更强大的最终决策

比如haar feature：眼睛这里比较黑，所以是黑线，最简陋的机器学习检测

步骤

– Step 1: Select your Haar-like features – Step 2: Integral image for fast feature evaluation • I can evaluate which parts of the image have highest crosscorrelation with my feature (template) – Step 3: AdaBoost for to find weak learner

• I cannot possibly evaluate all features at test time for all image locations

• Learn the best set of weak learners • Our final classifier is the linear combination of all weak learners

– 步骤 1：选择类似 Haar 的特征（小波变换）
– 步骤 2：积分图像以进行快速特征评估（其实就是色素加减）
• 我可以评估图像的哪些部分与我的特征（模板）具有最高的互相关性
– 步骤 3：AdaBoost 用于查找弱学习者，级联分类器
• 我不可能在测试时评估所有图像位置的所有特征
• 学习最佳弱学习者集
• 我们的最终分类器是所有弱学习者的线性组合

理论

Haar特征和级联分类器目标检测介绍及代码_haar特征分类器-CSDN博客

2. 特征提取

HOG方向梯度直方图

2. 分类

– Step 1: Choose your training set of images that contain the object you want to detect. – Step 2: Choose a set of images that do NOT contain that object. – Step 3: Extract HOG features on both sets. – Step 4: Train an SVM classifier on the two sets to detect whether a feature vector represents the object of interest or not (0/1 classification).

– 步骤 1：选择包含要检测的对象的图像训练集。
– 步骤 2：选择不包含该对象的图像集。
– 步骤 3：在两个集合上提取 HOG 特征。
– 步骤 4：在两个集合上训练 SVM 分类器以检测特征向量是否代表感兴趣的对象（0/1 分类）。

可变形部分模型

对更多人体姿态更鲁棒

如何定义对象

We need a generic, class-agnostic objectness measure: how likely it is for an image region to contain an object

我们需要一个通用的、与类别无关的物体性度量：图像区域包含物体的可能性

Using this measure yields a number of candidate object proposals or regions of interest (RoI) where to focus.

使用此方法可以产生许多值得关注的候选对象提案或感兴趣区域 (RoI)。

（现在是两个阶段：先找RoI，然后分类器）

两种找RoI方法：selective search , edge boxes

找到最好的box：NMS--None-Maximum Suppression

所以非极大值抑制的真正作用是在很多人脸场景下，可以设置一个0-0.5之间的阈值，把重叠的锚框删掉，剩下的就是各个人脸的锚框

https://www.cnblogs.com/oliyoung/p/nms.html

NMS牵涉到IOU的概念：Intersection over Union or Jaccard Index

one-stage and two-stage detection

------------------------------

0807

jeston nano 和 tx2都是嵌入式计算平台，树莓派是小型计算板。tx2性能是最强大的。

蒸馏学习 1h

蒸馏学习笔记

原理：

若是把马的图片喂给已经训练好的网络里面，网络给出soft targets这个结果，是马的概率为0.7，为驴的概率为0.25，为车的概率是0.05，所以soft targets就传递了更多的信息

所以训练教师网络的时候就可以用hard targets训练，训练出了教师网络之后，教师网络对这张图片的预测结果soft targets能够传递更多的信息，就可以用soft targets去训练学生网络

Soft Label包含了更多“知识”和“信息，像谁,不像谁,有多像,有多不像

步骤：

蒸馏温度T

引入蒸馏温度T，把原来比较硬的soft targets变的更软，更软的soft targets去训练学生网络，那些非正确类别概率的信息就暴露的越彻底，相对大小的知识就暴露出来，让学生网络去学

T为1，就是原softmax函数，softmax本来就是把每个类别的logic强行变成0-1之间的概率，并且求和为1，是有放大差异的功能，如果logic高一点点，经过softmax，都会变的很高。

T越小，非正确类别的概率相对大小的信息就会暴露的更明显；T越大，曲线就会变得更soft，高的概率给降低，低的概率会变高，贫富差距就没有了。

计算hard loss：

学生网络和hard label之间的传统交叉熵为-log（0.88）

计算soft loss：

通过蒸馏后的学生网络和教师网络的softmax概率求交叉熵

将两个损失函数求和，

作为最终学生网络的损失函数，去训练学生网络