cztAI-CSDN博客

原创 LSTM语音识别

文章目录前言一、绪论1.1语音识别的意义1.2语音识别的现状1.3课题研究方向二、语音识别基本原理2.1发声机理2.2 识别原理2.3.3 Mel频率2.3.4 同态解卷积三、声学模型3.1隐马尔可夫模型3.2深度神经网络3.3循环神经网络四、CTC4.1 CTC解码4.2转录损耗前言机器学习大多数属于浅层模型（GMM、HMM等），浅层模型非线性变换能力较弱，不足以刻画复杂的语音数据（高维特征），识别性能提升非常有限，因此本课题针对声学模型GMM-HMM进行改进。由于GMM的输入是单帧，忽视了协同发音的

2020-08-06 16:54:46 5116

原创 KMP 算法的一些理解

`c是不匹配位置`，c 前面的字符串是 `abca`，字符串 `abca`头尾都是 `a`，这表示 a 已经匹配过，回溯到模式串位置 2 就是了。假设 c 前面的字符串是 `abab`，应该回溯到模式串位置 3。因此，回溯前后位置由`不匹配位置之前`的相同的`头切片`和`尾切片`所对应的`切片长度`决定。

2022-11-13 21:31:00 658

原创 MySQL 安装教程 windows

点击链接下载 https://dev.mysql.com/downloads/file/?id=511553如果用电脑下载很慢，可以尝试用手机下载双击安装（如果要重新安装，请选择右侧的remove卸载）Custom安装 Server安装 WorkbenchNextYes设置密码初始化错误路径有中文字符控制面板\系统和安全\系统\设备名称，改为中文，重启电脑双击打开安装包，卸载这里也要卸载请返回文档上方，双击安装包重新安装接上

2022-05-23 20:31:19 642

原创 python多线程爬取音标

多线程爬虫

2022-04-26 14:55:30 1492

转载 golang gin GET请求

main.gopackage mainimport ( "root/module2" "github.com/gin-gonic/gin")func main() { r := gin.Default() r.LoadHTMLGlob("template/**/*") r.GET("/param/:id", module2.AddParameter) r.GET("/param2/*id", module2.AddParameter2) r.GET("/query", mod.

2022-04-16 18:14:33 1147

转载 golang gin 数据类型

字符串(无)数组数组 + 结构体MapMap + 结构体切片Slicemain.gopackage mainimport ( "golang-gin/01/module2" "github.com/gin-gonic/gin")func main() { r := gin.Default() r.LoadHTMLGlob("template/**/*") r.GET("/arr", module2.ArrC...

2022-04-16 17:57:06 487

转载 golang gin template 模板

main.gopackage mainimport ( "net/http" "github.com/gin-gonic/gin")func Hello(c *gin.Context) { c.HTML(http.StatusOK, "index/index.html", "Hello Kitty") // c.String(200, "hello kitty")}func User(c *gin.Context) { c.HTML(http.St.

2022-04-16 17:36:26 1590

原创 golang gin 安装教程 windows ubuntu

文章目录一、安装 golang0. 下载1.获取`/usr/local`权限2.`golang`解压到`/usr/local`3.添加环境变量（`很重要`）二、安装ginvscode IDE三、实例一、安装 golang0. 下载点我下载 https://studygolang.com/dl1.获取/usr/local权限终端输入sudo chmod 777 /usr/local2.golang解压到/usr/local打开压缩包所在位置，右键打开终端Terminal，输入tar

2022-04-15 17:25:41 2259

原创考研数学证明题快速方法

一、证明等式微分中值定理零点定理：两个端点值的乘积小于零，函数存在零点。罗尔定理：两个端点值相等，存在导数为零。介值定理：介于两者之间。例1设 f(x)，g(x)f(x)，g(x)f(x)，g(x) 在 [a,b][a,b][a,b] 二阶可导，f(a)=f(b)=g(a)=g(b)=0f(a)=f(b)=g(a)=g(b)=0f(a)=f(b)=g(a)=g(b)=0.证明：∃ξ∈(a,b)，f(ξ)g′′(ξ)=g(ξ)f′′(ξ)\exist ξ \in (a,b)，f(ξ)g''

2021-10-06 07:00:00 1744 4

原创多项式、正交多项式最小二乘拟合

最小二乘法求解矛盾方程组矛盾方程组：方程个数多于未知数个数，不能得到精确解析解。使用最小二乘拟合得近似解。误差函数：R=∑i=1n[∑j=1maijxj−bi]2R = \sum_{i = 1}^n \left [ \sum_{j = 1}^m a_{ij}x_j - b_i \right ]^2R=i=1∑n[j=1∑maijxj−bi]2最小化误差函数，偏导数：∂R∂xk=2∑i=1n[∑j=1maijxj−bi]aik=2∑j=1m(∑i=1naijaik)xj−2∑i=1n

2021-09-16 10:21:58 2628

原创 pyqt5 打包为 exe

1. 安装 AnacondaUbuntu：下载：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.1.0-Linux-x86_64.sh安装：bash Anaconda3-5.1.0-Linux-x86_64.shWindows ：下载：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.1.0-Windows-x86_64

2021-09-14 09:12:11 960

原创论文：YOLOv3

YOLOv3: An Incremental Improvement论文：https://arxiv.org/abs/1804.02767代码：https://pjreddie.com/darknet/yolo/边界框预测在YOLOv2之后，我们的系统使用维度集群(dimension clusters)作为锚框来预测边界框。网络为每个边界框预测4个坐标， tx、ty、tw、tht_x、t_y、t_w、t_htx、ty、tw、th 。如果单元格从图像的左上角偏移(cx,cyc_x, c_yc

2021-07-31 13:23:35 557

原创论文：YOLOv2

YOLO9000: Better, Faster, Stronger论文：https://arxiv.org/abs/1612.08242代码：https://pjreddie.com/darknet/yolo/微调提升批归一化 BNmAP +超2%分辨率提高到 448×448mAP +近4%使用锚框mAP -0.3%，召回率 +7%RPN预测特征图中每个位置的偏移量。用预测偏移量而不是坐标来简化问题，使网络更容易学习。维集群。当在YOLO中使用锚框时，

2021-07-29 00:14:48 625 1

原创论文：YOLOv1

You Only Look Once: Unified, Real-Time Object Detection论文：https://arxiv.org/abs/1506.02640代码：https://pjreddie.com/darknet/yolo/YOLO 将目标检测的各个部分统一为一个单一的神经网络。我们的网络使用整个图像的特征来预测每个边界框。它还可以同时预测图像中所有类的所有边框。将输入图像划分为 S × S 网格。如果一个目标的中心落在一个网格单元格中，该网格单元格负责检测该物体。每

2021-07-28 19:58:14 640

翻译论文：对比学习 Contrastive Learning

Dimensionality Reduction by Learning an Invariant Mapping论文：http://www.cs.toronto.edu/~hinton/csc2535/readings/hadsell-chopra-lecun-06-1.pdf介绍降维的目的是将高维数据转换为低维表示，以便将类似的输入对象映射到流形上的附近点。大多数现有的降维技术都有两个缺点。首先，它们不会产生一个从输入到流形的函数(或映射)，这个函数可以应用到与训练点的关系未知的新点上。其次，许

2021-07-25 20:51:54 886

原创论文：Pyramid Vision Transformer

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions金字塔视觉Transformer: 无卷积密集预测的通用主干PVTv1：https://arxiv.org/abs/2102.12122代码：https://github.com/whai362/PVTPVTv2：https://arxiv.org/abs/2106.13797代码：https://github.com/

2021-07-25 11:51:03 1825

原创论文：CSWin Transformer

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows图像被分割为固定大小的图块（token），任意图块或多或少与其他图块有关系（依赖），对图块序列建模会产生长期依赖问题，目前全局 self-attention 能比较好的解决这个问题，而全局 self-attention 为二次计算复杂度，SWin Transformer （滑动窗口）采用局部 self-attention 解决计算复杂度问题，而

2021-07-24 20:27:02 1507 2

翻译 YOLOv5官方教程

传送门：https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data???? 本指南介绍如何使用YOLOv5训练您自己的自定义数据集????。在开始之前克隆 repo 、下载教程数据集并且安装 requirements.txt，包括Python>=3.6.0和PyTorch>=1.7。git clone https://github.com/ultralytics/yolov5 # clone repocd yolov5

2021-07-21 11:32:05 10873

原创 opencv python

文章目录定义图像显示函数显示图像显示视频RoI 区域阈值平滑形态学操作边缘检测sobelscharr拉普拉斯算子canny非极大值抑制双阈值轮廓轮廓特征须知：图像是RGB，opencv 处理 BGR定义图像显示函数def cv_show(name, img): cv2.imshow(name, img) cv2.waitKey(0) cv2.destroyWindow(name)显示图像# 原图img = cv2.imread('cat.jpg')cv_show

2021-07-14 00:31:12 738

原创论文：SRPN 生物细胞检测

SRPN: similarity-based region proposal networks for nuclei and cells detection in histology images论文：https://arxiv.org/abs/2106.13556代码：https://github.com/sigma10010/nuclei_cells_det在组织学图像中检测细胞核和细胞在临床和病理研究中都具有重要的价值。然而，由于细胞核或细胞形态的变化等多种原因，传统的目标检测方法在很多情况下

2021-07-03 12:15:30 1920 1

原创论文：Mask R-CNN

论文：https://arxiv.org/abs/1703.06870代码：原配、pytorch 1、pytorch 2更多目标检测Faster R-CNNFaster R-CNN 包括两个阶段：第一阶段：称为区域提议网络(RPN)，提出候选目标边界框。第二阶段：本质上是Fast R-CNN，使用 RoIPool 从每个候选框中提取特征，并进行分类和边界框回归。这两个阶段使用的特征可以共享，以更快地进行推断。架构Mask R-CNN 在概念上很简单：Faster R-CNN对每个

2021-07-03 08:47:35 1109 1

原创论文：Faster R-CNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文：https://arxiv.org/abs/1506.01497代码：Faster R-CNN、other作者引入了一个区域提议网络(RPN)，它与检测网络共享全图像卷积特征。RPN是一个完全卷积的网络，它可以同时预测每个位置上的目标界限和目标评分。对RPN进行端到端训练以生成高质量的区域提议，Fast R-CNN使用这些区域提议进行检测。

2021-07-02 06:57:37 1780 1

原创论文：Fast R-CNN

Fast R-CNN论文：https://arxiv.org/abs/1504.08083代码：https://github.com/rbgirshick/fast-rcnn更多目标检测本文提出了一种基于快速区域的卷积网络(Fast R-CNN)目标检测方法。因为检测需要对目标进行精确定位，所以产生了两个主要的挑战。首先，必须处理许多候选对象位置(通常称为“提议”)。其次，这些候选对象只提供粗定位，必须进行细化才能实现精确定位。这些问题的解决方案往往会牺牲速度、准确性或简洁性。我们提出了一种

2021-07-01 20:34:15 1159 1

原创论文：RCNN

Rich feature hierarchies for accurate object detection and semantic segmentation论文：https://arxiv.org/abs/1311.2524

2021-06-30 18:56:12 566

原创论文：DS-TransUNet 医学图像分割

DS-TransUNet: Dual Swin Transformer U-Net for Medical Image Segmentation论文：https://arxiv.org/abs/2106.06716Swin Transformer、更多相关阅读Introduction医学图像分割是一个重要而又具有挑战性的研究问题，涉及到临床应用中的许多常见任务，如息肉分割、病变分割、细胞分割等。而医学图像分割是医学图像处理与分析领域中一个复杂而关键的环节，在计算机辅助临床诊断系统中起着重要的作用。

2021-06-30 06:02:06 3906 3

原创论文：NesT （Aggregating Nested Transformers）

Aggregating Nested Transformers论文：https://arxiv.org/abs/2105.12723

2021-06-30 01:11:26 1408 2

原创论文：Swin Transformer

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文：https://arxiv.org/abs/2103.14030代码：语义分割、图像分类、目标检测

2021-06-29 06:17:50 1386 1

原创论文：deeplab v3+（语义分割）

论文：https://arxiv.org/abs/1802.02611v1

2021-06-28 08:07:42 649 1

原创论文：deeplab v3（语义分割）

用于密集特征提取的Atrous卷积深度卷积神经网络(DCNNs)[50]以完全卷积的方式部署[77,60]已经证明在语义分割任务中是有效的。然而，在这些网络的连续层上，max-pooling和striding的重复组合显著降低了生成的特征图的空间分辨率，在最近的dcnn中，每个方向的分辨率通常为32倍[47,78,32]。反卷积层(或转置卷积)[92,60,64,3,71,68]被用来恢复空间分辨率。相反，我们提倡使用“atrous卷积”，它最初是在[36]的“算法’ atrous”方案中为有效计算非抽.

2021-06-27 17:45:33 634 2

原创论文：FCN（语义分割）

Fully Convolutional Networks for Semantic Segmentation论文：https://arxiv.org/pdf/1411.4038.pdf代码：从粗到细推理的下一步自然是对每个像素进行预测。以往的方法使用卷积神经网络进行语义分割，其中每个像素被标注为其外围对象或区域的类别，但这种方法存在缺陷。我们表明，一个全卷积网络(FCN)，训练的端到端，像素到像素的语义分割超过了先进的没有进一步的机器。据我们所知，这是第一次训练端到端FCNs(1)进行像素预测和(2

2021-06-26 21:09:36 209

原创论文： LeViT（Transformer 图像分类）

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference论文：https://arxiv.org/pdf/2104.01136.pdf代码：https://github.com/facebookresearch/LeViT摘要我们提出了LeVIT：一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率度量，以便最好地反映广泛的应用场景。我们的大量实验验证了我们的技术选择，并表明它们适用于大多数体

2021-06-25 13:17:42 2835 2

原创论文：ViT（Transformer 图像分类）

论文：https://arxiv.org/abs/2010.11929pytorch代码：https://github.com/lucidrains/vit-pytorch1. 前言在计算机视觉中，卷积结构仍然占主导地位。受NLP中Transformer扩展成功的启发，我们尝试将标准Transformer直接应用于图像，并进行最少的修改。为此，我们将图像拆分为小块，并提供这些小块的线性嵌入序列作为Transformer的输入。图像图块与NLP应用程序中的token（words）的处理方式相同，以监督

2021-06-23 20:52:02 10376 5

原创论文：Attention is all you need

论文：https://arxiv.org/abs/1706.03762自注意力，有时也被称为内注意，是一种注意机制，将单个序列的不同位置联系起来，以计算该序列的表示。架构编码器(左半部分)和解码器(右半部分)左半部分的编码器一共有N = 6个子编码器，图中仅显示一个。每一个子编码器都有两层。一层是Multi-Head Attention （多头自注意机构），另一层是 Feed Forward（全连接的前馈网络）。在这两层都使用一个恒等映射（残差结构），然后进行层归一化。每一层的输出表示为

2021-06-23 00:07:56 2261 1

原创论文：SETR（Transformer 语义分割）

摘要最近的语义分割方法采用全卷积网络(FCN)与编码器解码器的架构。编码器逐步降低空间分辨率，学习更抽象/语义视觉概念更大的接受域。由于上下文建模对分割至关重要，最近的研究集中在增加接受域，通过扩张/收缩的回旋或插入注意模块。然而，基于编码器-解码器的FCN架构保持不变。在本文中，我们的目的是提供一个替代的视角，处理语义切分的序列到序列的预测任务。具体来说，我们部署了一个纯转换器(即，没有卷积和分辨率降低)来将图像编码为一系列补丁。通过在转换器的每一层建模全局上下文，这个编码器可以与一个简单的解码器结合，

2021-06-19 18:12:56 4108

翻译 resnet 残差网络（翻译）

摘要更深的神经网络更难训练。我们提出了一个残差学习框架，以简化比以前使用的网络更深入的网络训练。我们明确地将层重构为参考层输入的学习残差函数，而不是学习未参考的函数。我们提供了全面的经验证据，表明这些残差网络更容易优化，而且可以从相当大的深度提高精度。在ImageNet数据集上，我们评估了深度高达152层的残差网——比VGG网深8倍[41]，但复杂性仍然较低。这些残差网络的集合在ImageNet测试集上实现了3.57%的误差。该结果在ILSVRC 2015分类任务中获得第一名。我们还对100层和1000层

2021-06-06 20:13:54 1100

原创 Pytorch搭建GoogLeNet网络（奥特曼分类）

1 爬取奥特曼get_data.pyimport requestsimport urllib.parse as upimport jsonimport timeimport osmajor_url = 'https://image.baidu.com/search/index?'headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

2021-06-03 12:39:43 801 5

原创使用 Pytorch 训练 AlexNet 识别5种花朵

文章目录1 数据1.1 准备工作1.2 数据下载1.3 数据分类2 模型3 训练4 测试1 数据1.1 准备工作新建一个文件夹AlexNet，在文件夹AlexNet新建一个文件夹flower_data,将下载后的数据解压并放到文件夹flower_data。1.2 数据下载下载 Tensorflow 的花朵图片http://download.tensorflow.org/example_images/flower_photos.tgz1.3 数据分类在文件夹AlexNet右键打开终端gedi

2021-05-27 10:17:42 2288

翻译训练一个分类器（Pytorch官方教程）

文章目录数据训练一个图像分类器1.加载并规范化CIFAR10展示一些训练图片2. 定义卷积神经网络3.定义损失函数和优化器4.训练网络数据通常，当需要处理图像、文本、音频或视频数据时，可以使用标准的python包将数据加载到numpy数组中。然后你可以把这个数组转换成torch.*Tensor。对于图像，诸如Pillow、OpenCV之类的软件包很有用对于音频，软件包如scipy和librosa对于文本，可以使用原始Python或基于Cython的加载，也可以使用NLTK和SpaCy特别是对

2021-05-27 07:59:40 1483

翻译 VGG——深度学习框架（二）

用于大规模图像识别的深度卷积网络摘要在这项工作中，我们研究了卷积网络深度对其在大规模图像识别设置的准确性的影响。我们的主要贡献是通过使用非常小(3×3)卷积滤波器的架构对增加深度的网络进行了全面的评估，这表明通过将深度推至16-19个权重层，可以显著改善现有技术配置。这些发现是我们ImageNet 2014挑战赛提交的基础，我们的团队在本地化和分类方面分别获得了第一名和第二名。我们还表明，我们的表示可以很好地推广到其他数据集，在那里他们获得了最先进的结果。我们已经公开了我们的两个性能最好的卷积神经网络模

2021-05-14 00:46:08 1043

原创对话框、多窗体等

QFileDialog 文件对话框常用静态函数名称函数功能QString getOpenFileName()选择打开一个文件QStringList getOpenFileNames()选择打开多个文件QString getSaveFileName()选择保存一个文件QString gctExistingDirectory()选择保存一个已有的目录QUrl getOpenFileUrl()选择打开一个文件，可选择远程网络文件选择打开一个文件

2021-05-12 23:08:09 143 2

空空如也

空空如也