自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 语音识别-paddlespeech-流程梳理

ASR-PaddleSpeech

2024-05-13 16:36:18 775

原创 GAN反演+老照片修复

一个自然的想法是在GAN的图像空间寻找一张灰度化后与目标图片一致的图片,由于GAN倾向于输出自然的图片,因此找到的这张图会有自然的颜色。即,如果我们要复原图像A,则可以训练GAN网络,使其生成一个跟图像A的GroundTruth相似度很高很高的图像,该生成图像即为我们修复后的图像;用GAN模型近似表征自然图像分布,在恢复图像时,对于失真图,要恢复它,其实就是要在GAN表征的自然图分布中找到一个跟失真图最相似的图。提出了GFP-GAN,利用丰富多样的先验,将其封装在一个预训练的人脸中,用于模糊人脸修复。

2024-04-17 15:46:05 1114

原创 人脸识别:Arcface--loss+code

之前只接触过传统方法的人脸识别算法,本以为基于深度学习的方法会使用对比损失之类的函数进行训练,但是Arcface算法基于softmax进行了创新,本文未深究其详细的loss公式原理,在大致明白其方向下,运行了代码,记录如下。因为使用的.pt应该是要求128*128的尺寸,我仅是将图片直接reshape,并未进行其他操作,故而得分都不是很高,但是简单的设置阈值,也能得到正确的结果;表示类别得分 f 的向量的第 j 个元素 ( j ∈ [1, K],K 是类的数量),N 是训练数据的数量。经常用于相似度计算。

2024-04-02 17:39:32 1744

原创 反向传播--雅可比矩阵

第一层是输入层,包含两个神经元i1​i2​和截距项b1​;第二层是隐含层,包含两个神经元h1​h2​和截距项b2​;第三层是输出o1​o2​;每条线上标的wi​是层与层之间连接的权重,激活函数采用sigmoid函数;

2024-03-27 16:47:24 953 1

原创 Sklearn相关介绍及代码示例-1

无监督模型包括,各种聚类分析(KMeans, DBSCAN)、主成分分析 (PCA)、独立成分分析 (ICA)、隐含狄利克雷分配 (LDA) 等等;

2024-03-13 11:59:38 453 1

原创 信息增益-决策树

信息增益-离散型

2024-03-05 18:02:55 930 2

原创 I/O理论-1

TextIOBase ABC是 IOBase 的另一个子类,它处理字节表示文本的流,并处理字符串之间的编码和解码。由于要打印的参数会被转换为文本字符串,因此print()不能用于二进制模式的文件对象。所有流对提供给它们的数据类型都很敏感。1、print()函数可以输出一个值,也可以同时输出多个值,如果输出多个值,这多个值之间用半角逗号隔开;所有非关键字参数都会被转换为字符串,并会被写入到流,以sep分割,并在末尾加上end。三种主要的 I/O类型分别为: 文本 I/O, 二进制 I/O 和 原始 I/O。

2024-03-01 17:03:49 807 2

原创 wav2vec--

Wav2vec: Unsupervised Pre-training for Speech Recognition该模型非完整的ASR,而是一个将wav通过标记的、未标记的数据,通过无监督的方式进行训练,得到可以送入ASR中的向量;以提升ASR的准确率;当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能。最近,在标注数据缺少的情况下,神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练,再在数据量受限的目标数据上fine-tune来提高

2022-02-07 15:18:41 6107 2

原创 语音识别-初识

ASRThttps://blog.ailemon.net/2018/08/29/asrt-a-chinese-speech-recognition-system/ASR-Automatic Speech Recognition &&&&&&&&&& Paddle Speech涉及数据集:Aishell, wenetspeech, librispeech…涉及方法:① DeepSpeech2: End.

2022-01-26 10:49:45 3463

原创 Keras-Yolo v3 代码对应含义

pred_yolo_1 = _conv_block(x, [{'filter': 1024, 'kernel': 3, 'stride': 1, 'bnorm': True, 'leaky': True, 'layer_idx': 80}, {'filter': (3*(5+nb_class)), 'kernel': 1, 'stride': 1, 'bnorm': False, 'leaky': False, 'layer_idx': 81

2021-12-20 15:00:42 434

原创 Yolo v1 v2

yolov1 v2

2021-12-17 14:33:20 221

原创 多标签学习-多任务学习

参考搬运:https://blog.csdn.net/cdknight_happy/article/details/105427428行人属性识别(Pedestrian Attribute Recognition, PAR),目的是从输入图像中挖掘行人的属性信息。行人属性识别挖掘得到的是行人的高层语义信息,这些信息和低层特征不同,对视角变换和成像条件的变化比较鲁棒。计算机视觉领域的很多算法,如ReID和行人检测,都会集成行人的属性信息以提升算法的鲁棒性。受视角、光线、分辨率等因素的影响,它仍然是一个

2021-12-15 09:22:22 4925

原创 loss-FSCE 小样本识别

FSCE: Few-Shot Object Detection via Contrastive Proposal Encodingcontrastive predictive coding ------------ CPC领域对比预测编码Contrastive Proposal Encoding (CPE) LossN个 ---- {z, u, y}z----featureu----IOU scorey----label of GT公式4----筛选 BBOX 的 IOU;公式3

2021-12-14 10:32:03 3757 1

转载 点云简单介绍

什么是点云,如何获得点云。A. 点云包含了很多信息,除了3维坐标数据之外,还可能包括颜色、分类值、强度值、时间等。B. 点云数据可以由多种方法获得:直接由Lidar激光扫描出点云数据。不同角度的2D图像组合成点云由深度图(Depth Map)生成点云,即将图像坐标+深度信息从图像坐标系转换为世界坐标系。C. 点云和深度图都会出现深度信息的缺失,因为往往传感器只能捕捉物体表面的信息。D. obj .off .ply格式都是3D mesh格式,即物体被划分成若干个微小单元(三角形,或其他形状)

2021-12-07 09:43:29 1300

原创 PointSetGeneration- 点云生成论文阅读笔记

A Point Set Generation Network for 3D Object Reconstruction from a Single Image(很多图片与公式上传略麻烦,详细笔记见自己的KeYan report)文章链接:https://arxiv.org/abs/1612.00603源码链接:https://github.com/fanhqme/PointSetGeneration通过深度神经网络生成3D数据已在研究界引起了越来越多的关注。PointSetGeneration网络

2021-12-07 09:30:57 693 1

原创 半监督笔记-2

接上篇,同样引:https://blog.csdn.net/shangjiankeji/article/details/1126814502.3 Π Model & Temporal ensembling Model: Temporal ensembling for semi-supervised learning, 2017这篇研究工作由 NVIDIA 的研究小组完成,其中包含两个半监督算法框架,分别是 Π Model和Temporal ensembling Model, 二者都可以认为是 Γ

2021-12-01 11:02:46 216

原创 半监督笔记-1

引:LadderNet:https://blog.csdn.net/shangjiankeji/article/details/112681450https://zhuanlan.zhihu.com/p/54719656自编码器:https://blog.csdn.net/qq_24407657/article/details/82499677https://www.sohu.com/a/224516673_999921811. Γ Model:Semisupervised learning

2021-11-25 15:08:55 904

原创 正则表达式-python

re.match函数re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回None。函数语法:re.match(pattern, string, flags=0)#!/usr/bin/python# -*- coding: UTF-8 -*- import reprint(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配print(re.match('com', 'www.run

2021-11-24 16:18:05 573

原创 np.nonzero(a)

np.nonzero(a)返回数组a中非零元素的索引值数组。(1)只有a中非零元素才会有索引值,那些零值元素没有索引值;(2)返回的索引值数组是一个2维tuple数组,该tuple数组中包含一维的array数组。 其中,一维array向量的个数与a的维数是一致的;(3)索引值数组的每一个array均是从一个维度上来描述其索引值。比如,如果a是一个二维数组,则索引值数组有两个array,第一个array从行维度来描述索引值;第二个array从列维度来描述索引值。(4) 该np.transpose(n

2021-11-24 10:19:18 128

原创 Continue and Break

for letter in 'Python': # 第一个实例 if letter == 'h': continue print ('当前字母 :', letter) var = 10 # 第二个实例while var > 0: var = var -1 if var == 5: continue print ('当前变量值 :', var)print ("Good

2021-11-24 09:36:54 601

原创 io BytesIO StringIO

Python I/O: (Input Output)StringIO:很多时候,数据读写不一定是文件,也可以在内存中读写。StringIO顾名思义就是在内存中读写str。要把str写入StringIO,我们需要先创建一个StringIO,然后,像文件一样写入即可:# -*- coding: utf-8 -*-from io import StringIOf = StringIO()f.write('hello')f.write(' ')f.write('world!')print(

2021-11-23 16:17:26 158

原创 base64

base64base64是一种编码方式,通常用于把二进制数据编码为可写的字符形式的数据。# 想将字符串转编码成base64, 要先将字符串转换成二进制数据import base64url = "https://www.cnblogs.com/songzhixue/"bytes_url = url.encode("utf-8")str_url = base64.b64encode(bytes_url) # 被编码的参数必须是二进制数据print(str_url) # b'aHR0cH

2021-11-23 15:03:11 2539

转载 getattr---Python

getattr—Pythongetattr() 函数用于返回一个对象属性值class A(object): bar = 1a = A()getattr(a, 'bar') # 获取属性 bar 值print(getattr(a, 'bar')) #1#getattr(a, 'bar2') # 属性 bar2 不存在,触发异常#AttributeError: 'A' object has no attribute 'bar2'getattr(a,

2021-11-16 14:48:18 59

转载 FFmpeg

FFmpegFFMPEG中结构体很多。最关键的结构体可以分成以下几类:a) 解协议(http, rtsp, rtmp, mms)AVIOContext,URLProtocol,URLContext主要存储视音频使用的协议的类型以及状态。URLProtocol存储输入视音频使用的封装格式。每种协议都对应一个URLProtocol结构。(注意:FFMPEG中文件也被当做一种协议“file”)b) 解封装(flv, avi, rmvb, mp4)AVFormatContext主要存储视音频封装格式

2021-11-16 11:19:07 86

原创 Python 引入上级目录

Python 引入上级目录DeployPythonrec.pyUtilsPredictor.py从rec.py里引用Utils,使用了:import osimport sys__dir__ = os.path.dirname(os.path.abspath(__file__))sys.path.append(os.path.abspath(os.path.join(__dir__, '../')))from utils.predictor import PredictorDepl

2021-11-09 15:57:33 2647

原创 Dice相似系数(Dice Similarity Coefficient, DSC)

Dice相似系数(Dice Similarity Coefficient, DSC)分母可以解析为:FP + TP = 所有分类为阳性的样本TP + FN = 真阳 + 假阴 = 所有真的是阳性的样本

2021-11-08 15:41:32 12294

原创 [:, :, :]

Torch.Tensorimport torchA = torch.tensor([[[104.0070]], [[116.6688]], [[122.6789]]]) #(3,1,1)print('--------this is the first output')print(A[:,:,-1])'''tensor([[104.0070], [116.6688], [122.6789

2021-10-27 09:17:50 576

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除